清华大学和腾讯AI实验室的研究人员推出音频恢复模型Apollo,它专门设计用于改善压缩音频的质量。例如,你正在听一首因为文件压缩而音质受损的歌曲,Apollo的目标就是让这首歌听起来尽可能地接近原始无损音质。
- 项目主页:https://cslikai.cn/Apollo
- GitHub:https://github.com/JusperLee/Apollo
- 模型地址:https://huggingface.co/JusperLee/Apollo
Apollo是一种新颖的音乐恢复方法,旨在解决由音频编解码器引起的失真和伪迹问题,尤其是在低比特率下。Apollo在频域中操作,使用频率带分割模块、带序列建模和频率带重建来恢复MP3压缩音乐的质量。它将频谱图划分为子带,提取增益-形状表示,并建模子带和时间信息以实现高质量音频的恢复。通过使用生成对抗网络(GAN)进行训练,Apollo在MUSDB18-HQ和MoisesDB数据集上超越了现有的SR-GAN模型,在复杂的多乐器和声乐场景中表现出色,同时保持了效率。
主要功能:
- 音频质量恢复: 将压缩或损坏的音频输入转换成高质量、未受损的音频输出。
- 高频细节重建: 特别关注中高频范围的音频质量,这些部分在压缩过程中最容易受损。
主要特点:
- 频带分割模块: 将音频信号分割成不同频带,分别处理,以更好地恢复高频细节。
- 频带序列建模: 使用Roformer和TCN(时间卷积网络)来捕捉频带之间的关系,提高音频的连贯性和质量。
- 实时处理能力: 支持流式处理,适合实时音频恢复应用。
工作原理:
- 频带分割: 将音频的频谱图分割成多个子带频谱图。
- 序列建模: 对每个子带频谱图进行序列建模,提取特征并进行编码。
- 重建模块: 将编码后的特征映射回重建的子带频谱图,然后将这些子带频谱图合并,通过逆短时傅里叶变换(iSTFT)转换回波形。
具体应用场景:
- 音乐播放: 提高在线音乐服务中压缩音乐的播放质量。
- 语音通信: 改善电话或网络通话中因压缩而音质下降的问题。
- 音频制作: 帮助音乐制作人和音频工程师修复损坏的音频文件或提升音质。
总的来说,Apollo是一个先进的音频处理工具,它通过深度学习技术,能够将压缩音频恢复到接近原始音质的水平,对于提升音质体验有着重要的意义。
0条评论