当前位置：首页 > 优惠 >大语言模型>文章详情

华为推出多模态大语言模型TextHawk：专门设计用于处理文档导向的任务，同时保持了处理多种模态任务的通用能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-16)| 分类：大语言模型 | 热度：407 ℃

已关闭评论

华为推出多模态大语言模型TextHawk：专门设计用于处理文档导向的任务，同时保持了处理多种模态任务的通用能力

华为推出多模态大语言模型TextHawk，它专门设计用于处理文档导向的任务，同时保持了处理多种模态任务的通用能力。TextHawk在处理文档图像时表现出色，这些图像通常包含高分辨率和高信息密度，这对于传统的语言模型来说是一个挑战。例如，如果你有一张包含复杂表格的图像，TextHawk可以帮助你理解表格中的数据，并回答有关表格内容的问题，如“哪个产品的销量最高？”或者“这个季度的总销售额是多少？”。通过细粒度的视觉感知和高效的信息处理，TextHawk能够在保持高效性能的同时，处理复杂的文档任务。

主要功能和特点：

高效细粒度感知： TextHawk通过四个专门设计的组件来探索高效的细粒度感知，这些组件包括重新采样和重新排列（ReSA）模块、可扩展位置嵌入（SPEs）、查询提案网络（QPN）和多级交叉注意力（MLCA）机制。
信息压缩： 它能够有效地压缩文档图像中的信息，减少计算成本。
通用能力： 尽管专注于文档任务，TextHawk仍然保持了在视觉和语言领域的出色通用能力。
数据增强： 通过使用Gemini Pro，一个商业MLLM引擎，来丰富多模态文档数据，从而提高了模型对指令的适应性。

工作原理： TextHawk的工作原理可以分为以下几个步骤：