新型自监督学习模型XEUS:为数千种语言提供鲁棒的语音表示学习

分类:大语言模型 | 热度:47 ℃

卡内基梅隆大学、上海交通大学和芝加哥丰田技术学院的研究人员推出新型自监督学习(Self-supervised Learning, SSL)模型XEUS(发音类似Zeus,意为“跨语言通用语音编码器”),旨在为数千种语言提供鲁棒的语音表示学习。XEUS模型在超过100万小时的数据上进行了预训练,涵盖了4057种语言,这使得它的语言覆盖范围是之前SSL模型的4倍。

  • 项目主页:https://www.wavlab.org/activities/2024/xeus
  • 模型:https://huggingface.co/espnet/xeus

例如,我们要为一个多语言的语音识别系统开发一个模型,这个系统需要处理来自世界各地的语音输入,包括那些没有大量标注数据的小语种。使用XEUS,我们可以利用其在大规模未标记多语言语音数据上的预训练能力,通过自监督学习提取出鲁棒的语音特征表示,从而为这些语言提供高质量的语音识别服务。

主要功能和特点:

  1. 多语言覆盖:XEUS支持超过4000种语言,这在语音处理模型中是前所未有的。
  2. 数据多样性:模型训练使用了多种来源的数据,包括公开可访问的语料库和新创建的语料库,后者包含了之前在语音文献中未曾见过的数据源。
  3. 鲁棒性增强:XEUS通过一种新颖的去混响目标(dereverberation objective),提高了模型对嘈杂数据的鲁棒性。
  4. 性能卓越:在多种基准测试中,XEUS一致性地超越或达到了最先进的SSL模型的性能。

工作原理:

  • XEUS基于E-Branchformer(一种改进的卷积增强模型)构建,使用了HuBERT风格的掩蔽预测和WavLM风格的去噪目标。
  • 它通过模拟混响条件来训练模型,要求模型预测从模拟混响音频中得到的干净离散的音素伪标签,从而学习如何从混响音频中恢复清晰的语音信号。
  • XEUS的训练还包括了一种新颖的自监督任务,即从模拟的混响音频中预测清洁的离散音素伪标签,这要求模型隐式地学习如何清理混响音频。

具体应用场景:

  1. 多语言自动语音识别(ASR):XEUS可以在多种语言上进行有效的ASR,即使是那些在预训练语料中只有不到10小时数据的语言。
  2. 语音翻译(ST):XEUS在语音翻译任务中表现出色,即使是对于资源较少的语言对。
  3. 语音合成:XEUS在语音合成任务中也展现了其优越性,与现有的SSL编码器相比,使用XEUS的语音合成质量更高。

总结来说,XEUS通过在大量多语种数据上的预训练,以及其对数据增强技术的创新应用,实现了对多种语言的广泛支持和鲁棒的语音处理能力,为构建更公平、更包容的全球语音技术应用奠定了基础。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论