当前位置：首页 > 优惠 >大语言模型>文章详情

苹果推出新型多模态大语言模型MM1.5：提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-10-08)| 分类：大语言模型 | 热度：392 ℃

已关闭评论

苹果推出新型多模态大语言模型MM1.5：提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力

AI

苹果推出新型多模态大语言模型MM1.5，它是为了提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力而设计的。简单来说，MM1.5就像一个超级聪明的助手，它可以阅读和理解图片中的文字，告诉你图片里发生了什么，甚至能够理解图片之间的关系。例如，你给MM1.5看一张超市水果区的照片，它不仅能读出水果的价格标签，还能明白你问的是“哪个是成熟的甜瓜”，然后准确地指出来。或者，你给它看一段视频，它能够描述视频里发生了什么，比如一个人在花园里种花。

主要功能：

文本丰富的图像理解： MM1.5能够处理和理解图片中的文字信息，比如街拍标志、菜单、通知等。
视觉指代和定位： 它能够理解图像中的特定对象或区域，比如在一系列图片中找到并定位柠檬的位置。
多图像推理： 能够理解多张图片之间的关系和顺序，比如比较两张照片的差异，或者理解一系列图片讲述的故事。
视频理解： MM1.5可以分析视频内容，解释视频中的动作和事件。

主要特点：

多种数据混合训练： MM1.5在训练时采用了多种数据混合，包括高质量的OCR数据和合成的图像标题。
优化的视觉指令调整数据混合： 它使用优化的数据集进行监督式微调，以提高性能。
多种模型规模： 从1B到30B参数的模型，包括密集型和混合专家（MoE）变体。
专门变体： 包括针对视频理解和移动UI理解的专门版本。

工作原理：

MM1.5通过三个阶段的训练来提升其能力：

大规模预训练： 使用低分辨率的图像进行训练。
持续预训练： 使用高分辨率的OCR数据和合成标题进行持续预训练。
监督式微调（SFT）： 通过优化视觉指令调整数据的混合比例，提高模型在特定任务上的表现。

具体应用场景：

移动UI理解： 帮助用户理解他们的手机屏幕上的各种图标和文本。
视频内容分析： 在视频制作和编辑中，MM1.5可以帮助识别和标记视频中的重要片段。
图像搜索引擎： 在需要理解图像内容并提供相关搜索结果的应用中发挥作用。
辅助阅读： 对于视觉障碍人士，MM1.5可以读出图片中的文字和信息，帮助他们更好地理解周围的世界。

总的来说，MM1.5是一个多功能的人工智能模型，它通过理解图像和文本的复杂关系，为我们提供了一种新的方式来与视觉内容互动。

MM1.5 多模态大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：《底特律：化身为人》全平台销量突破1000万份，Steam史低三折特价

下一篇：互动聊天创新项目Future You：通过让用户与年长版的自己进行对话，减少焦虑，指导年轻人做出更好的选择

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录