浙江大学和 香港大学的研究人员推出OmniBind,这是一种大规模的多模态联合表示模型,能够处理包括3D、音频、图像和语言输入在内的多种数据类型。简单来说,OmniBind就像一个多语言的超级翻译器,但它不仅仅是翻译语言,它还能理解和转换不同类型的数据,比如将文字描述转换成3D模型,或者根据声音找到对应的图像。例如,你是一名游戏开发者,想要在游戏中实现一个功能,让玩家能够通过语音命令来创建或修改3D物体。使用OmniBind,你可以将玩家的语音转换成3D模型的特征,然后在游戏中实时生成或调整这些物体,提供一种新颖的交互体验。
- 项目主页:https://omnibind.github.io
- GitHub:https://github.com/zehanwang01/OmniBind
- 模型:https://huggingface.co/Viglong/OmniBind
OmniBind是一系列规模宏大(参数量从70亿到300亿不等)的多模态联合表示模型,能够全面支持3D模型、音频、图像及文本数据的输入。面对跨模态数据配对的稀缺问题,我们并未选择从头开始训练庞大型号,而是创新性地设计了一种机制,即重映射并融合多个预训练的专业模态模型空间。此方法通过间接扩容模型参数及增加模型接触的数据量,达到了“规模升级”的目的。
为了确保不同模态空间的高效融合,我们引入了双目标学习路由器,动态调整各模态权重,旨在实现跨模态的整体一致性对齐及语言表征的有效分离。重要的是,由于空间绑定与路由机制基于轻量级网络架构,OmniBind在训练效率方面表现卓越。即便是训练最大的300亿参数模型,也仅需未配对的单一模态数据集,并且在配备8-4090型GPU的单个计算节点上,耗时不过约三天。广泛而深入的实验评估证明了OmniBind作为全能型表示模型的高度灵活性与优越性能,特别是在任意查询处理和可组合多模态理解等复杂应用场景中,其潜力尤为显著。
主要功能:
- 多模态输入支持:支持3D模型、音频、图像和文本等多种类型的输入。
- 联合表示学习:能够将不同模态的数据映射到一个共享的空间中,实现跨模态的理解和转换。
主要特点:
- 大规模模型:OmniBind包含从7亿到30亿参数的不同规模模型。
- 数据稀缺性解决方案:由于跨模态数据对稀缺,OmniBind通过绑定多个预训练的专家模型(specialist models)来间接增加模型参数和数据量。
- 动态权重分配:通过学习路由器(routers)动态地为不同的数据空间分配权重,以实现跨模态的整体对齐和语言表示的解耦。
工作原理:
- 空间绑定:将不同模态的预训练空间通过简单的投影器绑定到一个基础模型上,如EVA-CLIP-18B。
- 权重路由:使用可学习的路由器动态预测不同模态的结合权重,基于输入信息和两个目标(跨模态整体对齐和语言表示解耦)。
- 多模态对比损失:在绑定过程中使用多模态对比损失来训练投影器,确保不同模态之间的语义对齐。
具体应用场景:
- 跨模态检索:根据一种模态的查询在另一种模态中检索相关信息,例如根据声音找到对应的3D模型。
- 零样本分类:在没有训练数据的情况下,对新的模态进行分类,如对未知音频或图像进行分类。
- 多模态内容创建:利用多模态表示来生成新的多模态内容,比如根据文本描述生成3D场景。
论文还提到了OmniBind的一些限制和未来的工作方向,比如目前只使用了14个现有的空间和4种模态,未来可能会探索更多的模态和更大的模型规模。此外,OmniBind的能力和潜在的负面影响主要继承自其使用的预训练模型,因此对这些模型进行额外的安全检测和过滤处理是很重要的。
0条评论