当前位置：首页 > 优惠 >AI音频>文章详情

Kyutai推出实时语音到语音模型Moshi：通过模拟人类的对话方式，使得机器与人类的交流更加自然和流畅

推荐人：暴走AI| 商城: AI | 10个月前 (09-21)| 分类：AI音频 | 热度：25 ℃

已关闭评论

Kyutai推出实时语音到语音模型Moshi：通过模拟人类的对话方式，使得机器与人类的交流更加自然和流畅

Kyutai推出实时语音到语音模型Moshi，它可以连续地倾听和说话，无需明确地建模发言人的转换或中断。例如，你有一个智能助手，它能够像真人一样与你进行流畅的对话，不仅理解你的话，还能用自然的声音回应你，那么Moshi就是实现这一目标的模型。

GitHub：https://github.com/kyutai-labs/moshi
模型：https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd
Demo：https://moshi.chat

Kyutai推出实时语音到语音模型Moshi：通过模拟人类的对话方式，使得机器与人类的交流更加自然和流畅

主要功能：

Moshi的主要功能是实现实时的、双向的语音对话。这意味着它可以同时听和说，就像两个人之间的自然对话一样，没有明显的停顿或延迟。

Moshi 是一种先进的语音转文本基础模型和全双工口语对话系统。它采用了 Mimi，这是一种尖端的流式神经音频编解码技术。Mimi 能够处理高保真音频，将其转换为低比特率的音频表示，同时保持极低的延迟，并且音质优于现有的非流式编解码技术。

Moshi 同时处理两个音频流：一个代表 Moshi 自身的声音，另一个代表用户的声音。在对话过程中，用户的语音被实时捕捉，而 Moshi 的回应则是基于模型生成的。Moshi 能够预测自己的语音对应的文本，这种自我对话的能力显著提升了对话质量。模型中，一个小型的 Depth Transformer（深度变换器）负责处理给定时间步的编码依赖性，而一个拥有 70 亿参数的大型 Temporal Transformer（时间变换器）则负责处理时间依赖性。Moshi 的理论延迟仅为 160 毫秒，实际应用中在 L4 GPU 上的总延迟可低至 200 毫秒。

Mimi 在以往的神经音频编解码器基础上进行了创新，如 SoundStream 和 EnCodec，它在编码器和解码器中都加入了 Transformer，并调整了处理速度以匹配文本的生成速率。这使得 Mimi 能够更有效地处理语音和文本信息。与 SpeechTokenizer 类似，Mimi 通过一种特殊的损失函数来优化模型，使得模型能够更好地理解和生成语言。尽管 Mimi 是实时处理的，但它能够精确地匹配 WavLM 提供的高质量音频表示，而不会引入延迟。此外，Mimi 仅通过对抗性训练损失和特征匹配来提升音质，即使在低比特率下也能保持出色的听觉体验。

主要特点：