当前位置：首页 > 优惠 >大语言模型>文章详情

阿里推出DocOwl 1.5模型：用于理解文档图像的多模态大语言模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-20)| 分类：大语言模型 | 热度：386 ℃

已关闭评论

来自阿里巴巴和中国人民大学的研究团队推出DocOwl 1.5模型，它是一种用于理解文档图像的多模态大语言模型（MLLM）。DocOwl 1.5特别强调了结构信息在理解文本丰富图像（如文档、表格、图表等）中的重要性，并提出了一种统一结构学习方法来提升MLLM的性能。

GitHub地址：https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

论文地址：https://arxiv.org/abs/2403.12895

Demo：https://huggingface.co/spaces/mPLUG/DocOwl

主要功能和特点：

统一结构学习： DocOwl 1.5通过结构感知的解析任务和多粒度文本定位任务，跨五个领域（文档、网页、表格、图表和自然图像）进行学习。
高效的视觉到文本模块： 设计了一个名为H-Reducer的模块，通过合并水平相邻的补丁来减少视觉特征的长度，同时保持布局信息，使模型更高效地理解高分辨率的文档图像。
全面的训练数据集： 构建了一个名为DocStruct4M的综合训练集，用于支持结构学习。
推理调优数据集： 为了激发模型在文档领域的详细解释能力，构建了一个高质量的指令调优数据集DocReason25K。

工作原理： DocOwl 1.5遵循典型的MLLM架构，包括视觉编码器、视觉到文本模块和大型语言模型作为解码器。它首先通过形状自适应裁剪模块处理高分辨率图像，然后使用H-Reducer将图像特征转换为序列，最后通过大型语言模型进行解码以生成输出。

具体应用场景：