当前位置：首页 > 优惠 >AI音频>文章详情

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

推荐人：暴走AI| 商城: AI | 7个月前 (07-19)| 分类：AI音频 | 热度：54 ℃

暂无评论

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

AI

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族，专为优化人类与大语言模型(LLMs)间的自然语音交互而设计。该体系的核心亮点是两大创新模型：SenseVoice，擅长处理多语种语音识别、情绪识别及音频事件探测；以及CosyVoice，能灵活生成自然语音，实现对多种语言、音色、讲述风格和发言者身份的精细调控。具体而言，SenseVoice-Small版本为五种语言提供了超低延迟的语音识别服务，而SenseVoice-Large则支持超过五十种语言的高精准度识别。CosyVoice在多语言语音合成、无需预训练的上下文学习、跨语言声音克隆及指令响应功能上表现卓越。

SenseVoice 是一个语音理解模型，擅长多语言语音识别、情绪识别和音频事件检测。它有两种变体：SenseVoice-Small和SenseVoice-Large。SenseVoice-Small为五种语言提供极低延迟的自动语音识别（ASR），而SenseVoice-Large支持超过50种语言的高精ASR。
CosyVoice 是一个语音生成模型，能够生成自然声音，并控制多种语言、音色、说话风格和说话者身份。它在多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟随能力方面表现出色。

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

FunAudioLLM通过将这些模型与大型语言模型结合，赋能诸如语音翻译、情感交互式对话、参与式播客制作及富含感情的有声书讲述等多种应用场景，显著拓展了语音交互技术的领域界限。

项目主页：https://fun-audio-llm.github.io
GitHub：https://github.com/FunAudioLLM
SenseVoice模型：https://www.modelscope.cn/studios/iic/SenseVoice
CosyVoice模型：https://www.modelscope.cn/studios/iic/CosyVoice-300M

主要功能与特点

多语言支持：SenseVoice和CosyVoice都能够处理多种语言，使得语音交互更加全球化。
低延迟与高精度：SenseVoice-Small在保持低延迟的同时，提供高精度的语音识别。
情绪与事件识别：SenseVoice能够识别语音中的情绪和特定音频事件，使交互更加丰富和人性化。
个性化语音生成：CosyVoice可以根据不同的说话者特征生成个性化的语音，甚至在没有训练数据的情况下（零样本学习）。
跨语言能力：CosyVoice支持跨语言的语音克隆，允许在不同语言之间复制特定说话者的声音特征。

工作原理

语音理解：SenseVoice接收语音输入，通过深度学习模型将其转换为文本，并识别其中的情绪和事件。
语音生成：CosyVoice根据文本内容和给定的指令（如特定语言、情绪或说话风格），生成相应的语音输出。
上下文学习：CosyVoice利用上下文信息，实现零样本学习，即使没有直接的训练数据，也能生成特定说话者风格的语音。
指令跟随：CosyVoice能够根据自然语言指令调整语音的各种特征，如语调、速度和情感。

具体应用场景

语音翻译：用户可以用自己的语音进行外语交流，系统自动翻译并生成目标语言的语音输出。
情感语音聊天：系统能够识别用户语音中的情感，并以相应的情感回应，提供更自然的交流体验。
互动播客：用户可以与多个大型模型进行实时讨论，系统生成播客脚本并合成相应的语音。
有声读物：系统分析书籍内容，识别情绪和对话，然后使用CosyVoice合成具有表现力的多角色叙述语音。

FunAudioLLM

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：微软推出基于知识图谱的检索增强生成（RAG）开源项目GraphRAG

下一篇：开源项目SCALE：让 CUDA 应用无需修改运行在 AMD GPU 上

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录