新型音频编码模型WavTokenizer:能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理

分类:AI音频 | 热度:21 ℃

浙江大学、阿里巴巴集团 和Meta的研究人员推出新型音频编码模型WavTokenizer,它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理。简单来说,WavTokenizer就像是一个音频界的“压缩器”,能够把一段音频变成一串代码,这些代码既占用空间小,又能在需要的时候还原成高质量的音频。

  • GitHub:https://github.com/jishengpeng/WavTokenizer
  • 项目主页:https://wavtokenizer.github.io
  • 模型:https://huggingface.co/novateur/WavTokenizer

主要功能和特点:

  1. 极端压缩:WavTokenizer极大地压缩了音频数据,使得一秒钟的24kHz采样率音频只需要一个量化器和40或75个标记。
  2. 改善主观质量:尽管标记数量减少,但WavTokenizer在重建质量上达到了最先进的水平,具有出色的UTMOS评分,并天生包含更丰富的语义信息。
  3. 设计创新:通过设计更广阔的VQ(Vector Quantization,向量量化)空间、扩展上下文窗口和改进的注意力网络,引入了强大的多尺度鉴别器和逆傅里叶变换结构。

工作原理: WavTokenizer通过三个主要模块处理原始音频:

  1. 编码器:将输入音频转换为潜在特征表示。
  2. 单个量化器:将这些特征离散化,生成离散表示。
  3. 改进的解码器:从压缩的潜在表示中重建音频信号。

模型通过端到端的方式训练,优化包括时间和频率域的重建损失以及感知损失(通过不同分辨率的鉴别器)。

具体应用场景:

  1. 语音合成:在语音合成应用中,WavTokenizer可以生成高质量的语音输出。
  2. 音乐生成:在音乐制作中,它能够根据给定的风格或模式创作新的音乐作品。
  3. 音频处理:在音频编辑和后期制作中,WavTokenizer可以用于音频的压缩存储和高质量还原。
  4. 多模态学习:在需要结合文本、图像和音频的多模态学习任务中,WavTokenizer提供了一种有效处理音频数据的方法。

总的来说,WavTokenizer通过其高效的压缩技术和高质量的重建能力,在音频处理和建模领域提供了一个强大的工具。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论