新型视觉文档理解方法VisFocus:无需OCR技术,能够直接从图像中理解文档内容

分类:大语言模型 | 热度:51 ℃

以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus,它是一种无需光学字符识别(OCR)的技术,能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档,比如PDF文件或图像。

例如,你有一张包含许多文本的PDF文档的图像,并想知道文档中提到的某个特定信息(比如“Journal of Advanced Nursing”的出版周期),VisFocus可以直接分析图像并告诉你答案,而不需要先将图像中的文本转换为可编辑的文本。这种方法在处理复杂文档和图像时特别有用,因为它可以减少对OCR技术的依赖,并提高信息提取的准确性。

主要功能:

  • 文档理解:VisFocus能够从视觉文档中提取有意义的信息,比如回答问题、识别文档中的实体或分类文档。
  • 无需OCR:它不依赖于传统的OCR技术来转换图像中的文本为可编辑的文本,而是直接处理图像。

主要特点:

  1. 提示引导的视觉编码:VisFocus通过将用户的问题或提示直接输入到视觉编码器中,使模型能够关注文档中与提示相关的部分。
  2. 预训练任务:引入了一种新的预训练任务,称为局部掩蔽提示建模(LMPM),这有助于模型学习如何专注于文档中与提示相关的文本片段。
  3. 视觉-语言融合注意层(ViLMA):这是一种新引入的层,它允许视觉特征和语言提示在模型中进行交互,从而提高视觉特征与语言信息的对齐。

工作原理:

VisFocus的工作原理可以分为以下几个步骤:

  1. 视觉编码:使用视觉编码器(如Swin Transformer)处理输入的文档图像,提取视觉特征。
  2. 提示引导:将用户的问题或提示输入到视觉编码器中,通过ViLMA层使编码器能够关注与提示相关的文本区域。
  3. 预训练:通过LMPM任务训练模型,使模型学会在文档中搜索与提示语义相关的文本,而不是阅读整个文档。
  4. 语言模型:结合视觉特征和语言提示,使用语言模型(如T5)生成最终的预测结果。

具体应用场景:

  1. 文档问答(DocVQA):用户可以向模型提出关于文档内容的问题,模型能够理解问题并从文档中找到答案。
  2. 图表理解(ChartQA):对于包含图表的文档,模型能够理解图表中的数据并回答相关问题。
  3. 信息提取:在需要从文档中提取特定信息(如表格中的数据或文档中的实体)的场景中,VisFocus可以发挥作用。
  4. 零样本关键值提取:通过将关键值提取任务重新定义为提示相关的任务,VisFocus能够在没有看到特定文档类型的情况下进行关键值提取。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论