浙江大学、阿里巴巴集团 和Meta的研究人员推出新型音频编码模型WavTokenizer,它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理。简单来说,WavTokenizer就像是一个音频界的“压缩器”,能够把一段音频变成一串代码,这些代码既占用空间小,又能在需要的时候还原成高质量的音频。
- GitHub:https://github.com/jishengpeng/WavTokenizer
- 项目主页:https://wavtokenizer.github.io
- 模型:https://huggingface.co/novateur/WavTokenizer
主要功能和特点:
- 极端压缩:WavTokenizer极大地压缩了音频数据,使得一秒钟的24kHz采样率音频只需要一个量化器和40或75个标记。
- 改善主观质量:尽管标记数量减少,但WavTokenizer在重建质量上达到了最先进的水平,具有出色的UTMOS评分,并天生包含更丰富的语义信息。
- 设计创新:通过设计更广阔的VQ(Vector Quantization,向量量化)空间、扩展上下文窗口和改进的注意力网络,引入了强大的多尺度鉴别器和逆傅里叶变换结构。
工作原理: WavTokenizer通过三个主要模块处理原始音频:
- 编码器:将输入音频转换为潜在特征表示。
- 单个量化器:将这些特征离散化,生成离散表示。
- 改进的解码器:从压缩的潜在表示中重建音频信号。
模型通过端到端的方式训练,优化包括时间和频率域的重建损失以及感知损失(通过不同分辨率的鉴别器)。
具体应用场景:
- 语音合成:在语音合成应用中,WavTokenizer可以生成高质量的语音输出。
- 音乐生成:在音乐制作中,它能够根据给定的风格或模式创作新的音乐作品。
- 音频处理:在音频编辑和后期制作中,WavTokenizer可以用于音频的压缩存储和高质量还原。
- 多模态学习:在需要结合文本、图像和音频的多模态学习任务中,WavTokenizer提供了一种有效处理音频数据的方法。
总的来说,WavTokenizer通过其高效的压缩技术和高质量的重建能力,在音频处理和建模领域提供了一个强大的工具。
0条评论