华为推出多模态大语言模型TextHawk:专门设计用于处理文档导向的任务,同时保持了处理多种模态任务的通用能力

分类:大语言模型 | 热度:220 ℃

华为推出多模态大语言模型TextHawk,它专门设计用于处理文档导向的任务,同时保持了处理多种模态任务的通用能力。TextHawk在处理文档图像时表现出色,这些图像通常包含高分辨率和高信息密度,这对于传统的语言模型来说是一个挑战。例如,如果你有一张包含复杂表格的图像,TextHawk可以帮助你理解表格中的数据,并回答有关表格内容的问题,如“哪个产品的销量最高?”或者“这个季度的总销售额是多少?”。通过细粒度的视觉感知和高效的信息处理,TextHawk能够在保持高效性能的同时,处理复杂的文档任务。

主要功能和特点:

  1. 高效细粒度感知: TextHawk通过四个专门设计的组件来探索高效的细粒度感知,这些组件包括重新采样和重新排列(ReSA)模块、可扩展位置嵌入(SPEs)、查询提案网络(QPN)和多级交叉注意力(MLCA)机制。
  2. 信息压缩: 它能够有效地压缩文档图像中的信息,减少计算成本。
  3. 通用能力: 尽管专注于文档任务,TextHawk仍然保持了在视觉和语言领域的出色通用能力。
  4. 数据增强: 通过使用Gemini Pro,一个商业MLLM引擎,来丰富多模态文档数据,从而提高了模型对指令的适应性。

工作原理: TextHawk的工作原理可以分为以下几个步骤:

  • 形状适应性裁剪: 通过动态裁剪策略,TextHawk能够适应不同分辨率和长宽比的图像。
  • 重新采样和重新排列(ReSA): 通过交叉注意力机制对图像特征进行重采样,并通过线性投影进一步压缩视觉标记的数量。
  • 可扩展位置嵌入(SPEs): 通过球形线性插值(Slerp)技术,为不同大小的图像提供位置编码,保持模型对不同图像尺寸的适应性。
  • 查询提案网络(QPN): 动态初始化查询,以避免在不同子图像之间共享初始查询导致的冗余。
  • 多级交叉注意力(MLCA): 结合不同层次的视觉编码器特征,以捕捉文档图像的层次结构和语义关系。

具体应用场景: TextHawk可以应用于多种场景,包括但不限于:

  • 文档理解: 例如,自动从扫描的文档中提取文本内容、识别表格数据或理解图表信息。
  • 视觉问答(VQA): 在给定图像的情况下,回答关于图像内容的具体问题。
  • 图像描述生成: 根据图像内容生成简短的描述性文本。
  • 信息检索: 通过图像和文本的结合来检索相关信息,例如在网页或数据库中查找特定信息。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论