当前位置：首页 > 优惠 >大语言模型>文章详情

苹果推出新型视觉模型4M-21：能够在多种不同的输入和输出模态之间进行转换和预测

推荐人：暴走AI| 商城: AI | 10个月前 (06-16)| 分类：大语言模型 | 热度：212 ℃

已关闭评论

苹果推出新型视觉模型4M-21：能够在多种不同的输入和输出模态之间进行转换和预测

AI

瑞士洛桑联邦理工学院 (EPFL)和苹果推出新型视觉模型4M-21，它是一个多模态、多任务的基础模型，能够在多种不同的输入和输出模态之间进行转换和预测。简单来说，4M-21就像一个多才多艺的艺术家，不仅能够理解一幅画（图像数据），还能根据这幅画创作出一首诗（文本描述）、一段音乐（深度信息）、甚至是一个舞蹈动作（3D人体姿态）。

项目主页：https://4m.epfl.ch
GitHub：https://github.com/apple/ml-4m

例如，你有一台神奇的机器，它可以将你提供给它的任何东西——无论是一张图片、一段文字描述、一组深度数据还是其他任何形式的信息——转换成你所需要的任何其他形式。比如，你给它一张风景照片，它不仅能告诉你照片中的场景是在白天还是夜晚，还能创作出描述这个场景的诗句，甚至还能生成一个3D模型来展示这个风景。

主要功能：

支持多种模态输入和输出，包括图像、文本、深度信息、3D姿态等。
能够在不同模态之间进行转换和预测，实现“任何到任何”（any-to-any）的转换能力。

主要特点：

多模态能力：4M-21能够处理和生成多种类型的数据，包括图像、文本、深度图、语义分割等。
可扩展性：通过训练，模型可以扩展到更多的模态和任务，提高了模型的通用性和灵活性。
高性能：在多种基准测试中，4M-21表现出了优越的性能，与现有的专注于单一或少数任务的模型相比，没有损失性能。

工作原理：

4M-21模型采用了一种混合架构，将状态空间模型（SSM）如Mamba与滑动窗口注意力（SWA）相结合。它通过模态特定的分词器将各种模态映射到离散的标记序列，然后使用一个统一的Transformer架构来处理这些标记，实现模态之间的转换和预测。

具体应用场景：

图像和文本生成：根据图像内容生成描述性文本，或根据文本描述生成图像。
3D场景理解：利用深度信息和3D姿态数据，用于增强现实（AR）和虚拟现实（VR）应用。
跨模态检索：通过将不同模态的数据转换为共同的表示形式，实现跨模态的相似性搜索。
艺术创作辅助：帮助艺术家通过图像、文本等多种方式探索和表达创意。

论文还提到了4M-21模型的训练细节、实验结果和应用示例，展示了其在多模态学习和生成任务中的潜力。此外，论文公开了模型的代码和训练参数，以促进研究社区的进一步研究和开发。

4M-21 视觉模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：谷歌推出新颖的评估框架ToT：评估和提升大语言模型在时间推理（Temporal Reasoning）方面的能力

下一篇： MLKV：针对Transformer模型解码过程中内存使用效率的一种改进

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录