AI音频

优惠 评估基准MuChoMusic:专门用来测试多模态音频-语言模型在音乐理解方面的能力

  • 评估基准MuChoMusic:专门用来测试多模态音频-语言模型在音乐理解方面的能力
    AI
  • 庞贝法布拉大学、伦敦玛丽女王大学和环球音乐集团的研究人员推出评估基准MuChoMusic,它专门用来测试多模态音频-语言模型在音乐理解方面的能力。这些模型可以同时处理音频和语言信息,对于音乐领域的理解和应用具有巨大的潜力。简单来说,MuChoMusic就像一个针对音乐理解智能的“考试”,它可以评估这些智能系统是否能够准... 阅读全文

    优惠 开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过

  • 开放词汇的视听语义分割OV-AVSS:在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过
    AI
  • 新型视听语义分割任务,称为开放词汇的视听语义分割(Open-Vocabulary Audio-Visual Semantic Segmentation,简称OV-AVSS)。这项技术的目标是在视频中识别和分类发出声音的物体,即使这些物体的类别在训练数据中从未出现过。例如,你在观看一个包含多种乐器演奏的音乐会视频,即使训... 阅读全文

    优惠 高质量、类人同声传译系统CLASI:在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容

  • 高质量、类人同声传译系统CLASI:在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容
    AI
  • 字节跳动研究院跨语言代理团队推出高质量、类人同声传译系统CLASI, CLASI的主要功能是同声传译,即在演讲者讲话的同时,系统能够即时地提供翻译,让听众能够理解演讲内容。例如,你正在观看一个英文的科技产品发布会,但你的母语是中文。演讲者介绍了一款新的智能手机,使用了大量专业术语,如"Ising model"(伊辛模型... 阅读全文

    优惠 PopPop AI:免费在线AI 音效生成器,输入提示词就能生成音效

  • PopPop AI:免费在线AI 音效生成器,输入提示词就能生成音效
    AI
  • PopPop AI 是一款免费的人工智能音效在线生成器,用户可以通过输入文字描述来快速生成相应的音效素材。这些音效包括鼓掌声、下雨声、车流声等,适用于视频制作、游戏开发或其他需要音效的场合。PopPop AI 的特点是使用简便,不需要注册即可立即使用,并且提供了多种音效范例,用户可以根据需要选择合适的音效。此外,Pop... 阅读全文

    优惠 MUSICONGEN:于Transformer的文本到音乐生成模型

  • MUSICONGEN:于Transformer的文本到音乐生成模型
    AI
  • MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说,MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述,比如“一个充满活力的摇滚乐段”,然后它就能创作出符合这个描述的音乐。 项目主页:https://musicongen.github... 阅读全文

    优惠 提高自动音频字幕生成( AAC)的效率

  • 提高自动音频字幕生成( AAC)的效率
    AI
  • 上海交通大学人工智能教育部重点实验室X-LANCE实验室和英国萨里大学视觉、语音和信号处理中心的研究人员发布论文,论文的主题是关于提高自动音频字幕生成(Automated Audio Captioning, AAC)的效率,即如何让计算机更好地理解音频内容并生成相应的文本描述。想象一下,当你在听一段音乐或者演讲,计算机... 阅读全文

    优惠 StabilityAI发布全新开源模型Stable Audio Open的技术报告

  • StabilityAI发布全新开源模型Stable Audio Open的技术报告
    AI
  • StabilityAI在上个月公开新型文本到音频的生成模型Stable Audio Open后,终于在本月公开了技术报告,Stable Audio Open的特别之处在于,它是开放的,意味着任何人都可以使用和研究它,而且它是用Creative Commons(创意共享)许可的音频数据训练的,这保证了数据的合法性和透明性... 阅读全文

    优惠 阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

  • 阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族
    AI
  • 阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族,专为优化人类与大语言模型(LLMs)间的自然语音交互而设计。该体系的核心亮点是两大创新模型:SenseVoice,擅长处理多语种语音识别、情绪识别及音频事件探测;以及CosyVoice,能灵活生成自然语音,实现对多种语言、音色、讲述... 阅读全文

    优惠 音乐生成新方法musicgenstyle:通过音频输入来控制音乐的风格

  • 音乐生成新方法musicgenstyle:通过音频输入来控制音乐的风格
    AI
  • Meta、索邦大学、耶路撒冷希伯来大学 和Kyutai的研究人员发布论文,论文的主题是关于音乐生成的新方法,特别是如何通过音频输入来控制音乐的风格。例如,你有一个贝多芬的钢琴奏鸣曲的片段,你想让AI生成一首新的钢琴曲,听起来和贝多芬的风格相似。这篇论文介绍的方法可以帮助你实现这个目标。你只需要给AI提供这个贝多芬的片段... 阅读全文

    优惠 Speech Slytherin:新型序列模型Mamba应用于语音处理的三个关键任务:语音分离、自动语音识别(ASR)和文本到语音合成(TTS)

  • Speech Slytherin:新型序列模型Mamba应用于语音处理的三个关键任务:语音分离、自动语音识别(ASR)和文本到语音合成(TTS)
    AI
  • 哥伦比亚大学电气工程系的研究人员推出Speech Slytherin,探讨了一种新型的序列模型Mamba,并将其应用于语音处理的三个关键任务:语音分离、自动语音识别(ASR)和文本到语音合成(TTS)。Mamba是一种新型的序列模型,它与传统的变换器(transformer)模型相比,可能在某些方面有更好的性能和更高的... 阅读全文

    优惠 阿里巴巴集团Qwen团队推出大型音频-语言模型Qwen2-Audio

  • 阿里巴巴集团Qwen团队推出大型音频-语言模型Qwen2-Audio
    AI
  • 阿里巴巴集团Qwen团队最新研发的大型音频-语言模型Qwen2-Audio。这个模型能够处理各种音频信号输入,并根据语音指令进行音频分析或直接文本回应。简单来说,Qwen2-Audio就像一个超级听力助手,不仅能听懂你说的话,还能根据你的声音指令做出反应。例如,你有一个智能助手,它不仅能听懂你说的话,还能分析你播放的音... 阅读全文

    优惠 S2TT:将大语言模型应用于语音到文本翻译任务

  • S2TT:将大语言模型应用于语音到文本翻译任务
    AI
  • 台湾大学、香港中文大学和Meta的研究人员发布论文,探讨了如何将大型语言模型(LLMs)应用于语音到文本翻译(Speech-to-Text Translation, S2TT)任务。S2TT是一种技术,它能够将一种语言的语音信号转换成另一种语言的文字,这对于跨语言交流非常重要。例如,一个英语使用者想要理解德语的演讲,S... 阅读全文