以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus,它是一种无需光学字符识别(OCR)的技术,能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档,比如PDF文件或图像。
例如,你有一张包含许多文本的PDF文档的图像,并想知道文档中提到的某个特定信息(比如“Journal of Advanced Nursing”的出版周期),VisFocus可以直接分析图像并告诉你答案,而不需要先将图像中的文本转换为可编辑的文本。这种方法在处理复杂文档和图像时特别有用,因为它可以减少对OCR技术的依赖,并提高信息提取的准确性。
主要功能:
- 文档理解:VisFocus能够从视觉文档中提取有意义的信息,比如回答问题、识别文档中的实体或分类文档。
- 无需OCR:它不依赖于传统的OCR技术来转换图像中的文本为可编辑的文本,而是直接处理图像。
主要特点:
- 提示引导的视觉编码:VisFocus通过将用户的问题或提示直接输入到视觉编码器中,使模型能够关注文档中与提示相关的部分。
- 预训练任务:引入了一种新的预训练任务,称为局部掩蔽提示建模(LMPM),这有助于模型学习如何专注于文档中与提示相关的文本片段。
- 视觉-语言融合注意层(ViLMA):这是一种新引入的层,它允许视觉特征和语言提示在模型中进行交互,从而提高视觉特征与语言信息的对齐。
工作原理:
VisFocus的工作原理可以分为以下几个步骤:
- 视觉编码:使用视觉编码器(如Swin Transformer)处理输入的文档图像,提取视觉特征。
- 提示引导:将用户的问题或提示输入到视觉编码器中,通过ViLMA层使编码器能够关注与提示相关的文本区域。
- 预训练:通过LMPM任务训练模型,使模型学会在文档中搜索与提示语义相关的文本,而不是阅读整个文档。
- 语言模型:结合视觉特征和语言提示,使用语言模型(如T5)生成最终的预测结果。
具体应用场景:
- 文档问答(DocVQA):用户可以向模型提出关于文档内容的问题,模型能够理解问题并从文档中找到答案。
- 图表理解(ChartQA):对于包含图表的文档,模型能够理解图表中的数据并回答相关问题。
- 信息提取:在需要从文档中提取特定信息(如表格中的数据或文档中的实体)的场景中,VisFocus可以发挥作用。
- 零样本关键值提取:通过将关键值提取任务重新定义为提示相关的任务,VisFocus能够在没有看到特定文档类型的情况下进行关键值提取。
0条评论