当前位置：首页 > 优惠 >AI音频>文章详情

新型音频编码模型WavTokenizer：能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记（tokens），以便于语言模型处理

推荐人：暴走AI| 商城: AI | 2年前 (2024-08-30)| 分类：AI音频 | 热度：986 ℃

已关闭评论

新型音频编码模型WavTokenizer：能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记（tokens），以便于语言模型处理

浙江大学、阿里巴巴集团和Meta的研究人员推出新型音频编码模型WavTokenizer，它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记（tokens），以便于语言模型处理。简单来说，WavTokenizer就像是一个音频界的“压缩器”，能够把一段音频变成一串代码，这些代码既占用空间小，又能在需要的时候还原成高质量的音频。

GitHub：https://github.com/jishengpeng/WavTokenizer
项目主页：https://wavtokenizer.github.io
模型：https://huggingface.co/novateur/WavTokenizer

主要功能和特点：

极端压缩：WavTokenizer极大地压缩了音频数据，使得一秒钟的24kHz采样率音频只需要一个量化器和40或75个标记。
改善主观质量：尽管标记数量减少，但WavTokenizer在重建质量上达到了最先进的水平，具有出色的UTMOS评分，并天生包含更丰富的语义信息。
设计创新：通过设计更广阔的VQ（Vector Quantization，向量量化）空间、扩展上下文窗口和改进的注意力网络，引入了强大的多尺度鉴别器和逆傅里叶变换结构。

工作原理： WavTokenizer通过三个主要模块处理原始音频：