当前位置：首页 > 优惠 >大语言模型>文章详情

Google DeepMind推出新型多塔解码器架构Zipper：将多个在不同模态上独立预训练的生成模型融合在一起，创造出比单独模型更强大的多模态生成能力

推荐人：暴走AI| 商城: AI | 11个月前 (06-01)| 分类：大语言模型 | 热度：201 ℃

已关闭评论

Google DeepMind推出新型多塔解码器架构Zipper：将多个在不同模态上独立预训练的生成模型融合在一起，创造出比单独模型更强大的多模态生成能力

AI

Google DeepMind推出新型多塔解码器架构Zipper，它能够将多个在不同模态上独立预训练的生成模型融合在一起，创造出比单独模型更强大的多模态生成能力。简单来说，Zipper就像一个多才多艺的艺术家，能够把不同的艺术形式（比如语言、声音和图像）融合在一起，创作出新的艺术作品。论文还提到了Zipper的一些限制和未来的工作方向，比如将模型扩展到超过两种单模态解码器的情况，以及探索更多的模态和任务。此外，作者还计划将Zipper应用到更大的模型尺寸和更多样化的数据集上。

主要功能：

将不同模态的数据（如文本和语音）融合在一起，生成新的序列。
保持原有单模态生成模型的能力，同时增加跨模态的生成能力。

主要特点：

模块化：Zipper架构设计为模块化，可以灵活地组合多个预训练的单模态解码器。
灵活性：在跨模态任务中，Zipper可以选择性地保持单模态（例如文本到文本生成）的性能。
数据高效：即使在对齐数据有限的情况下，Zipper也能通过单模态预训练强大的解码器来实现有效的多模态生成。

工作原理：

Zipper使用交叉注意力机制（cross-attention）来组合多个单模态解码器，这些解码器在预训练阶段已经分别在各自的模态上训练好了。
在训练过程中，可以通过冻结（freezing）某些模态的解码器来保持其原有的单模态生成性能，同时只训练交叉注意力层和另一模态的解码器。
Zipper在解码时，可以按照指定的序列顺序生成不同模态的输出，例如先生成语音再生成文本。

具体应用场景：

自动语音识别（ASR）：将语音转换为文本的任务中，Zipper可以生成文本而不损害其单模态文本生成的能力。
文本到语音（TTS）：在文本到语音的任务中，Zipper可以使用预训练的语音解码器来生成语音，提高性能。
多模态理解和生成：在需要同时理解和生成多种类型数据的场景中，Zipper可以作为一个强大的工具，例如在多语言翻译、视频内容生成等。

Google DeepMind Zipper

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： Google DeepMind推出新强化学习方法DRO：用于大语言模型（LLM）的对齐

下一篇： Meta推出新技术Nest：改善大语言模型（LLMs）在生成文本时的准确性和归因能力

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录