视觉字幕恢复VCR:挑战现有的视觉-语言模型,以准确恢复图像中部分被遮挡的文本

分类:大语言模型 | 热度:142 ℃

魁北克 Mila 人工智能研究所、ServiceNow Research、蒙特利尔大学、宾夕法尼亚大学、滑铁卢大学和香港科技大学的研究人员推出新任务Visual Caption Restoration(VCR,视觉字幕恢复),它挑战现有的视觉-语言模型,以准确恢复图像中部分被遮挡的文本。这项任务的灵感来自于观察到图像中嵌入的文本与常见的视觉元素和自然语言有着本质的不同,因为需要对视觉、文本以及图像中嵌入的文本进行对齐。

例如,你有一个图像,其中包含了一些被部分遮挡的街道指示牌的文本。使用VCR技术,模型可以识别出未被遮挡的部分,并根据图像的上下文信息推测出被遮挡的文本,从而恢复完整的街道名称。论文还提到,尽管现有的视觉-语言模型在VCR任务上的表现与人类有显著差距,但通过在VCR-WIKI数据集上进行微调,可以提高模型的性能。

主要功能

  • VCR任务要求模型不仅要识别图像中的文本,还要利用图像的上下文信息和被遮挡文本的微小线索来恢复文本。

主要特点

  1. 跨模态理解:VCR任务要求模型理解并整合视觉信息和文本信息。
  2. 上下文整合:模型需要利用图像的上下文以及文本的局部可见部分来推测被遮挡的文本。
  3. 难度可调:通过调整文本的可见性,可以控制任务的难度。

工作原理

  • 研究者们开发了一个流程来生成合成图像,这些图像包含了可调节可见性的嵌入文本,用于VCR任务的测试。他们使用维基百科的图片和标题来创建了一个名为VCR-WIKI的数据集,这个数据集包含了容易和困难两种配置的大量英文和中文实体。

具体应用场景

  • VCR任务可以应用于任何需要从图像中恢复或理解文本的场景,例如在文档扫描、图像中文本的自动翻译、或者在图像识别中提高对遮挡文本的识别能力。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论