当前位置：首页 > 优惠 >AI音频>文章详情

S2TT：将大语言模型应用于语音到文本翻译任务

推荐人：暴走AI| 商城: AI | 1年前 (2024-07-04)| 分类：AI音频 | 热度：353 ℃

已关闭评论

台湾大学、香港中文大学和Meta的研究人员发布论文，探讨了如何将大型语言模型（LLMs）应用于语音到文本翻译（Speech-to-Text Translation, S2TT）任务。S2TT是一种技术，它能够将一种语言的语音信号转换成另一种语言的文字，这对于跨语言交流非常重要。例如，一个英语使用者想要理解德语的演讲，S2TT技术可以将德语语音实时转换成英语文本，使得英语使用者能够通过阅读文本来理解演讲内容。这项技术的应用可以极大地提高跨语言交流的效率和准确性。

论文：https://arxiv.org/abs/2407.03169

主要功能和特点：

直接集成：论文提出了一种仅使用解码器（decoder-only）的LLM架构，这种架构允许模型直接处理编码后的语音表示，并生成文本翻译，而不是先将其离散化成token。
参数高效微调：研究了不同的参数高效微调技术，以适应下游任务，减少计算成本并减轻灾难性遗忘。
任务公式化：探讨了不同的任务公式化方式，包括标准公式和链式公式，以及在训练中包含自动语音识别（ASR）作为辅助任务。

工作原理：