马里兰大学帕克分校和Adobe Research的研究人员推出一种用于零样本音频分类(Zero-Shot Audio Classification, ZSAC)的方法ReCLAP。零样本音频分类是一种技术,可以让计算机在没有直接训练数据的情况下,通过理解自然语言描述来识别不同类型的声音。例如,你正在制作一个关于城市公园的纪录片,你需要找到所有包含儿童玩耍声音的片段。使用ReCLAP,你可以通过描述儿童玩耍时可能发出的声音(如“孩子们在秋千上欢笑”)来搜索和识别这些音频片段,而不需要手动去听每一个片段。这样,ReCLAP就能帮助你快速定位到需要的音频内容。
- GitHub:https://github.com/Sreyan88/ReCLAP
主要功能: ReCLAP的主要功能是提高音频分类的准确性,特别是在没有大量标注数据的情况下。它通过使用自然语言描述来识别声音,而不是仅仅依赖于固定的音频样本。
主要特点:
- 描述性特征使用: ReCLAP不使用抽象的声音类别标签(如“风琴的声音”),而是使用描述声音本身特征的描述(如“风琴深沉且回荡的声音弥漫在大教堂中”)。
- 增强的数据训练: 它通过重写音频描述来训练模型,使模型能够更好地理解声音。
- 提示增强: 它为数据集中的每个唯一标签生成自定义提示,而不是使用传统的手工编写的模板提示。
工作原理: ReCLAP的工作原理包括两个主要步骤:
- 描述增强训练: 通过使用大型语言模型(LLM)生成的多个不同的描述来增强训练数据,这些描述用独特的方式描述音频中的声音事件。
- 提示增强: 在零样本音频分类中,为每个类别生成多个自定义提示,这些提示首先描述标签中的声音事件,然后将它们置于多样化的场景中。
具体应用场景:
- 环境声音识别: 比如在城市环境中识别不同类型的车辆声音、动物叫声或者人群中的对话。
- 音频内容检索: 帮助用户通过自然语言查询来检索特定的音频内容,比如“找到所有包含鸟鸣声的录音”。
- 音频编辑和后期制作: 在音频编辑过程中,快速识别并分类不同类型的声音,以便于编辑和调整。
0条评论