当前位置：首页 > 优惠 >大语言模型>文章详情

阿里巴巴推出多模态大语言模型mPLUG-Owl3

推荐人：暴走AI| 商城: AI | 1年前 (2024-08-16)| 分类：大语言模型 | 热度：419 ℃

已关闭评论

阿里巴巴推出多模态大语言模型mPLUG-Owl3，它在处理单图像、多图像和视频任务方面取得了显著的进展。例如，你向mPLUG-Owl3展示一系列图片，并询问其中的天气情况，模型可以分析这些图片并告诉你哪一张是雪天。或者，如果你展示一段视频，并要求模型按时间顺序描述视频中的事件，mPLUG-Owl3可以准确地按照视频中的事件发展顺序给出描述。这些能力使mPLUG-Owl3成为一个强大的多模态AI工具，适用于从娱乐到教育、从内容创作到自动化分析等多个领域。

GitHub：https://github.com/X-PLUG/mPLUG-Owl
Demo：https://www.modelscope.cn/studios/iic/mPLUG-Owl

主要功能：

处理和理解长图像序列。
支持多图像和视频生成的可控性。
能够在不同的基准测试中实现最先进的性能。

主要特点：

高效的架构设计：mPLUG-Owl3通过创新的超注意力块（Hyper Attention blocks）有效地整合视觉和语言信息，避免了额外的计算开销。
跨模态语义对齐：通过超注意力机制，模型能够在变换器块中并行执行自注意力和跨模态注意力，以自适应地获取视觉信息。
长视觉序列评估：提出了一种新的长视觉序列评估方法，名为"Distractor Resistance"，用于评估模型在干扰中的焦点保持能力。

工作原理：

mPLUG-Owl3模型由视觉编码器、线性投影层和解码器组成，通过交叉注意力结构将视觉信息输入到语言模型中。它使用超注意力变换器块（HATB）来减少额外的训练参数，并促进模型收敛。此外，它还引入了一种新的多模态交织旋转位置嵌入（MI-Rope），以保持图像在交织序列中的位置信息。

具体应用场景：