来自萨里大学和上海交通大学的研究人员推出新型音频编解码器SemantiCodec,它能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息。这种编解码器特别适合于需要在保持音频质量的同时减少数据大小的场景,例如在带宽有限的网络环境中传输音频或者在存储空间受限的设备上存储音频。
实验结果显示,SemantiCodec在重建质量上显著优于现有的Descript编解码器,并且在语义信息的丰富性上也有显著提升。例如,在比较不同编解码器重建的音频时,SemantiCodec能够在极低的比特率下重建出质量更高、语义信息更丰富的音频,这对于音频内容的理解和生成任务非常有用。
主要功能:
- 高效压缩:SemantiCodec能够在极低的比特率(低至0.31 kbps到1.43 kbps)下对音频进行压缩。
- 语义保留:即使在高压缩率下,SemantiCodec也能够保留音频的语义信息,这对于音频内容的理解至关重要。
主要特点:
- 双编码器架构:SemantiCodec采用了一个语义编码器和一个声学编码器。语义编码器基于自监督学习的AudioMAE模型,并通过k-means聚类进行离散化,而声学编码器则用于捕捉剩余的音频细节。
- 基于扩散模型的重建:使用一个潜在扩散模型(LDM)作为解码器,基于语义和声学编码器的输出重建音频。
工作原理:
- 预处理:将输入音频转换为mel-spectrogram。
- 语义编码:使用AudioMAE模型计算mel-spectrogram的特征,然后通过k-means聚类得到的语义码本进行量化,生成语义令牌。
- 声学编码:将语义量化后的特征和原始mel-spectrogram输入声学编码器,得到声学特征,并通过声学码本进行量化,生成声学令牌。
- 重建:将语义和声学量化特征作为条件输入,使用潜在扩散模型重建原始音频。
具体应用场景:
假设你正在开发一个音频流媒体服务,该服务需要在网络连接不佳的地区提供音频内容。使用SemantiCodec,你可以在不显著降低音频质量的前提下,大幅度减少音频文件的大小,从而在低速网络环境下也能流畅地传输音频。
0条评论