AI音频

优惠 零样本音频分类ReCLAP:理解自然语言描述来识别不同类型的声音

  • 零样本音频分类ReCLAP:理解自然语言描述来识别不同类型的声音
    AI
  • 马里兰大学帕克分校和Adob​​e Research的研究人员推出一种用于零样本音频分类(Zero-Shot Audio Classification, ZSAC)的方法ReCLAP。零样本音频分类是一种技术,可以让计算机在没有直接训练数据的情况下,通过理解自然语言描述来识别不同类型的声音。例如,你正在制作一个关于城市... 阅读全文

    优惠 音频恢复模型Apollo:专门设计用于改善压缩音频的质量

  • 音频恢复模型Apollo:专门设计用于改善压缩音频的质量
    AI
  • 清华大学和腾讯AI实验室的研究人员推出音频恢复模型Apollo,它专门设计用于改善压缩音频的质量。例如,你正在听一首因为文件压缩而音质受损的歌曲,Apollo的目标就是让这首歌听起来尽可能地接近原始无损音质。 项目主页:https://cslikai.cn/Apollo GitHub:https://github.co... 阅读全文

    优惠 VMAS框架:能够从视频输入中学习生成背景音乐

  • VMAS框架:能够从视频输入中学习生成背景音乐
    AI
  • 北卡罗来纳大学教堂山分校计算机科学系和字节跳动的研究人员推出VMAS框架,它能够从视频输入中学习生成背景音乐。与以往依赖于符号音乐注释(如 MIDI 文件)的方法不同,VMAS 利用了大规模的网络视频和伴随的背景音乐,使模型能够学习生成真实且多样化的音乐。 项目主页:https://genjib.github.io/p... 阅读全文

    优惠 视频生成音频系统Draw an Audio:根据视频内容自动生成与之匹配的声音效果

  • 视频生成音频系统Draw an Audio:根据视频内容自动生成与之匹配的声音效果
    AI
  • 中国科学院自动化研究所和美团点评的研究人员推出视频生成音频系统Draw an Audio,这个系统能够根据视频内容自动生成与之匹配的声音效果,这在电影制作中被称为“Foley”艺术。例如,你给这个系统一段没有声音的视频,比如一个人在雪地上走路,系统就能自动为这段视频生成脚步声。 项目主页:https://yannqi.... 阅读全文

    优惠 歌曲生成系统SongCreator:能创作出一首包含旋律、伴奏和歌声的完整歌曲

  • 歌曲生成系统SongCreator:能创作出一首包含旋律、伴奏和歌声的完整歌曲
    AI
  • 清华大学深圳国际研究生院、香港中文大学的研究人员推出SongCreator,它是一个基于歌词生成完整歌曲的人工智能系统。想象一下,你给SongCreator提供一段歌词,它就能创作出一首包含旋律、伴奏和歌声的完整歌曲,就像一个虚拟的音乐家。 项目主页:https://songcreator.github.io Song... 阅读全文

    优惠 日本NTT推出声音转换技术FastVoiceGrad

  • 日本NTT推出声音转换技术FastVoiceGrad
    AI
  • 日本NTT推出一种声音转换技术FastVoiceGrad,声音转换技术能够将一个人的声音转换成另一个人的声音,同时不改变语言内容。这项技术在多个领域都有潜在的应用价值,比如在语音合成、语音识别和娱乐产业中。例如,你正在制作一个有声读物应用,需要将文本自动转换成语音。使用FastVoiceGrad,你可以将任何文本读成听... 阅读全文

    优惠 基于扩散模型和Transformer架构的新型音乐生成模型FluxMusic

  • 基于扩散模型和Transformer架构的新型音乐生成模型FluxMusic
    AI
  • 昆仑万维推出新型音乐生成模型FluxMusic,它基于扩散模型和Transformer架构,能够根据文本描述生成音乐。这个模型特别之处在于它使用了一种称为“修正流(Rectified Flow)”的技术,以及在潜在的变分自编码器(VAE)空间中对旋律频谱进行操作。FluxMusic通过结合先进的文本处理技术和音乐生成算... 阅读全文

    优惠 新型音频编码模型WavTokenizer:能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理

  • 新型音频编码模型WavTokenizer:能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理
    AI
  • 浙江大学、阿里巴巴集团 和Meta的研究人员推出新型音频编码模型WavTokenizer,它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理。简单来说,WavTokenizer就像是一个音频界的“压缩器”,能够把一段音频变成一串代码,这些代码既占用空间小,又能在需要的... 阅读全文

    优惠 Audio Match Cutting:用于在电影和视频中自动寻找和创建匹配的音频过渡

  • Audio Match Cutting:用于在电影和视频中自动寻找和创建匹配的音频过渡
    AI
  • 杜比实验室和布法罗大学的研究人员推出Audio Match Cutting,它用于在电影和视频中自动寻找和创建匹配的音频过渡。这种技术特别关注音频的匹配剪辑,即在两个镜头之间实现声音的无缝过渡,让观众在听觉上感觉平滑自然。例如,你在制作一部电影预告片,需要在两个镜头之间创建音频过渡。使用Audio Match Cutt... 阅读全文

    优惠 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号

  • 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号
    AI
  • 韩国亚洲大学的研究人员推出新型高保真度、高效率的波形生成模型PeriodWave-Turbo,它通过对抗性流匹配优化(Adversarial Flow Matching Optimization)来加速生成高质量的波形信号。想象一下,你想要制作一段音乐或者合成一段语音,但希望这个过程既快速又能够达到专业水准的音质。Pe... 阅读全文

    优惠 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本

  • 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本
    AI
  • 阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。 作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式: 语音聊天:用户可以自由地与 Q... 阅读全文

    优惠 新型高效Transformer模型AVESFormer:专为实时音视频分割任务而设计

  • 新型高效Transformer模型AVESFormer:专为实时音视频分割任务而设计
    AI
  • 中国科学院大学人工智能学院、中国科学院自动化研究所和中国铁塔股份有限公司的研究人员推出新型高效Transformer模型AVESFormer,它专为实时音视频(Audio-Visual, AV)分割任务而设计。音视频分割是一种多模态任务,目的是在像素级别上区分出视频中与声音源相对应的物体。这项技术在机器人感知、视频监控... 阅读全文