阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

分类:AI音频 | 热度:15 ℃

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族,专为优化人类与大语言模型(LLMs)间的自然语音交互而设计。该体系的核心亮点是两大创新模型:SenseVoice,擅长处理多语种语音识别、情绪识别及音频事件探测;以及CosyVoice,能灵活生成自然语音,实现对多种语言、音色、讲述风格和发言者身份的精细调控。具体而言,SenseVoice-Small版本为五种语言提供了超低延迟的语音识别服务,而SenseVoice-Large则支持超过五十种语言的高精准度识别。CosyVoice在多语言语音合成、无需预训练的上下文学习、跨语言声音克隆及指令响应功能上表现卓越。

  • SenseVoice 是一个语音理解模型,擅长多语言语音识别、情绪识别和音频事件检测。它有两种变体:SenseVoice-Small和SenseVoice-Large。SenseVoice-Small为五种语言提供极低延迟的自动语音识别(ASR),而SenseVoice-Large支持超过50种语言的高精ASR。
  • CosyVoice 是一个语音生成模型,能够生成自然声音,并控制多种语言、音色、说话风格和说话者身份。它在多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟随能力方面表现出色。

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

FunAudioLLM通过将这些模型与大型语言模型结合,赋能诸如语音翻译、情感交互式对话、参与式播客制作及富含感情的有声书讲述等多种应用场景,显著拓展了语音交互技术的领域界限。

  • 项目主页:https://fun-audio-llm.github.io
  • GitHub:https://github.com/FunAudioLLM
  • SenseVoice模型:https://www.modelscope.cn/studios/iic/SenseVoice
  • CosyVoice模型:https://www.modelscope.cn/studios/iic/CosyVoice-300M

主要功能与特点

  1. 多语言支持:SenseVoice和CosyVoice都能够处理多种语言,使得语音交互更加全球化。
  2. 低延迟与高精度:SenseVoice-Small在保持低延迟的同时,提供高精度的语音识别。
  3. 情绪与事件识别:SenseVoice能够识别语音中的情绪和特定音频事件,使交互更加丰富和人性化。
  4. 个性化语音生成:CosyVoice可以根据不同的说话者特征生成个性化的语音,甚至在没有训练数据的情况下(零样本学习)。
  5. 跨语言能力:CosyVoice支持跨语言的语音克隆,允许在不同语言之间复制特定说话者的声音特征。

工作原理

  1. 语音理解:SenseVoice接收语音输入,通过深度学习模型将其转换为文本,并识别其中的情绪和事件。
  2. 语音生成:CosyVoice根据文本内容和给定的指令(如特定语言、情绪或说话风格),生成相应的语音输出。
  3. 上下文学习:CosyVoice利用上下文信息,实现零样本学习,即使没有直接的训练数据,也能生成特定说话者风格的语音。
  4. 指令跟随:CosyVoice能够根据自然语言指令调整语音的各种特征,如语调、速度和情感。

具体应用场景

  1. 语音翻译:用户可以用自己的语音进行外语交流,系统自动翻译并生成目标语言的语音输出。
  2. 情感语音聊天:系统能够识别用户语音中的情感,并以相应的情感回应,提供更自然的交流体验。
  3. 互动播客:用户可以与多个大型模型进行实时讨论,系统生成播客脚本并合成相应的语音。
  4. 有声读物:系统分析书籍内容,识别情绪和对话,然后使用CosyVoice合成具有表现力的多角色叙述语音。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论