当前位置：首页 > 优惠 >大语言模型>文章详情

苹果推出去噪语言模型DLM：用于提高自动语音识别（ASR）系统性能的新技术

推荐人：暴走AI| 商城: AI | 11个月前 (05-27)| 分类：大语言模型 | 热度：292 ℃

已关闭评论

苹果推出去噪语言模型DLM：用于提高自动语音识别（ASR）系统性能的新技术

AI

苹果推出去噪语言模型DLM（Denoising Language Model），用于提高自动语音识别（ASR）系统性能的新技术。DLM的核心思想是，通过训练一个模型来纠正ASR系统产生的错误，而不是仅仅重新排列ASR系统已经生成的假设（这是传统语言模型LM的做法）。

主要功能：

错误纠正：DLM专门设计用来修正ASR系统中的错误，将ASR系统的输出（可能包含错误）转换成更准确的文本。
性能提升：与传统的语言模型相比，DLM能够显著提高ASR系统在语音识别任务上的表现。

主要特点：

大规模合成数据训练：DLM使用大量合成数据进行训练，这些数据是通过文本到语音（TTS）系统生成的音频，再由ASR系统识别，形成带有噪声的假设。
多说话人TTS系统：DLM利用多个不同风格的TTS系统生成音频，以增加训练数据的多样性。
新的解码技术：DLM采用了新的解码方法，称为DSR-decoding，结合了ASR模型和DLM的输出，以提高识别的准确性。

工作原理：

数据生成：使用TTS系统将文本转换成音频，然后通过ASR系统识别这些音频，生成带有错误的文本假设。
模型训练：将这些错误的文本假设与原始文本配对，用来训练DLM，使其学会如何纠正错误。
错误纠正：在实际应用中，ASR系统首先生成初步的识别结果，然后DLM对这个结果进行纠错，生成最终的、更准确的文本。

具体应用场景：

语音识别：在任何需要将语音转换成文本的场景中，比如语音助手、会议记录、语音命令等。
语言翻译：在语音翻译应用中，首先通过ASR系统将源语言的语音识别成文本，然后使用DLM提高识别的准确性，最后进行翻译。
语音搜索：在需要通过语音输入进行搜索的场景中，DLM可以提高搜索结果的相关性，确保用户得到更准确的信息。

简而言之，DLM是一种强大的工具，它通过学习如何纠正ASR系统的错误，显著提高了语音识别的准确度，并且在不需要额外音频数据的情况下，通过合成数据训练，展现了其在资源受限情况下的潜力。

DLM 苹果

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：大型语言视觉模型Meteor：通过一种新颖的“理由遍历”（traversal of rationale）方法来增强理解和回答问题的能力

下一篇：服务于23种语言！Cohere推出多语言语言模型家族Aya 23

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录