当前位置：首页 > 优惠 >大语言模型>文章详情

新型视觉文档理解方法VisFocus：无需OCR技术，能够直接从图像中理解文档内容

推荐人：暴走AI| 商城: AI | 12个月前 (07-22)| 分类：大语言模型 | 热度：225 ℃

已关闭评论

新型视觉文档理解方法VisFocus：无需OCR技术，能够直接从图像中理解文档内容

AI

以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus，它是一种无需光学字符识别（OCR）的技术，能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档，比如PDF文件或图像。

例如，你有一张包含许多文本的PDF文档的图像，并想知道文档中提到的某个特定信息（比如“Journal of Advanced Nursing”的出版周期），VisFocus可以直接分析图像并告诉你答案，而不需要先将图像中的文本转换为可编辑的文本。这种方法在处理复杂文档和图像时特别有用，因为它可以减少对OCR技术的依赖，并提高信息提取的准确性。

主要功能：

文档理解：VisFocus能够从视觉文档中提取有意义的信息，比如回答问题、识别文档中的实体或分类文档。
无需OCR：它不依赖于传统的OCR技术来转换图像中的文本为可编辑的文本，而是直接处理图像。

主要特点：

提示引导的视觉编码：VisFocus通过将用户的问题或提示直接输入到视觉编码器中，使模型能够关注文档中与提示相关的部分。
预训练任务：引入了一种新的预训练任务，称为局部掩蔽提示建模（LMPM），这有助于模型学习如何专注于文档中与提示相关的文本片段。
视觉-语言融合注意层（ViLMA）：这是一种新引入的层，它允许视觉特征和语言提示在模型中进行交互，从而提高视觉特征与语言信息的对齐。

工作原理：

VisFocus的工作原理可以分为以下几个步骤：

视觉编码：使用视觉编码器（如Swin Transformer）处理输入的文档图像，提取视觉特征。
提示引导：将用户的问题或提示输入到视觉编码器中，通过ViLMA层使编码器能够关注与提示相关的文本区域。
预训练：通过LMPM任务训练模型，使模型学会在文档中搜索与提示语义相关的文本，而不是阅读整个文档。
语言模型：结合视觉特征和语言提示，使用语言模型（如T5）生成最终的预测结果。

具体应用场景：

文档问答（DocVQA）：用户可以向模型提出关于文档内容的问题，模型能够理解问题并从文档中找到答案。
图表理解（ChartQA）：对于包含图表的文档，模型能够理解图表中的数据并回答相关问题。
信息提取：在需要从文档中提取特定信息（如表格中的数据或文档中的实体）的场景中，VisFocus可以发挥作用。
零样本关键值提取：通过将关键值提取任务重新定义为提示相关的任务，VisFocus能够在没有看到特定文档类型的情况下进行关键值提取。

VisFocus

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： StabilityAI发布全新开源模型Stable Audio Open的技术报告

下一篇：新型视觉文本生成方法SceneVTG：能够在野外环境（即非受控的自然环境）中生成高质量的文本图像

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录