AI音频

优惠 全新TTS系统F5-TTS:能够将文本信息转换成听起来自然且富有表现力的语音

  • 全新TTS系统F5-TTS:能够将文本信息转换成听起来自然且富有表现力的语音
    AI
  • 上海交通大学、剑桥大学,吉利汽车研究院(宁波)有限公司的研究人员推出一个名为F5-TTS的全新文本到语音(Text-to-Speech,TTS)系统。这个系统能够将文本信息转换成听起来自然且富有表现力的语音。想象一下,你正在创建一个多语言的有声读物应用,F5-TTS可以帮助你将文本内容转换成不同语言的语音,让用户能够听... 阅读全文

    优惠 Diversity-Rewarded CFG:提高音乐生成模型在创作过程中的多样性和质量

  • Diversity-Rewarded CFG:提高音乐生成模型在创作过程中的多样性和质量
    AI
  • 谷歌发布论文,论文的主题是关于如何提高音乐生成模型在创作过程中的多样性和质量。想象一下,你是一位音乐制作人,想要创作出既符合某个主题又充满新意的音乐作品。但是,如果你每次创作出来的作品都大同小异,那就会显得很无聊。这篇论文介绍的方法就像是给你一个魔法工具,帮助你在保持音乐质量的同时,也让作品变得更加多样化和有趣。 项目... 阅读全文

    优惠 用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程

  • 用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程
    AI
  • 加州大学圣地亚哥分校、Adobe Research的研究人员推出一种用于加速音乐生成的新技术Presto!,Presto!通过减少采样步骤和每个步骤的成本,来加速基于分数的扩散变换器(一种生成音乐的模型)的推理过程。例如,你是一名视频编辑,需要为一个描述冬日山景的视频添加背景音乐,使用Presto!可以快速生成一段既符... 阅读全文

    优惠 avsoundscape:能够改变输入语音的声学特性,使其听起来像是在另一个不同的场景中录制的

  • avsoundscape:能够改变输入语音的声学特性,使其听起来像是在另一个不同的场景中录制的
    AI
  • 加州大学伯克利分校、Meta和密歇根大学的研究人员推出Self-Supervised Audio-Visual Soundscape Stylization技术,它能够改变输入语音的声学特性,使其听起来像是在另一个不同的场景中录制的。简单来说,就是可以通过这个技术,把一段语音处理得好像它是在某个特定环境中产生的,比如在... 阅读全文

    优惠 谷歌推出零样本跨语言声音转换技术Zero-shot Cross-lingual Voice Transfer

  • 谷歌推出零样本跨语言声音转换技术Zero-shot Cross-lingual Voice Transfer
    AI
  • 谷歌推出了一种名为“Zero-shot Cross-lingual Voice Transfer”(零样本跨语言声音转换)的技术,它可以将一个人的语音转换到另一种语言中去。简单来说,就是如果你有一种语言的语音样本,这项技术能够让你的声音听起来像是在说另一种你从未说过的语言。 项目主页:https://google.gi... 阅读全文

    优惠 V-AURA:根据视频生成与之匹配的音频

  • V-AURA:根据视频生成与之匹配的音频
    AI
  • 坦佩雷大学和牛津大学的研究人员推出V-AURA模型,它用于根据视频生成与之匹配的音频。简单来说,V-AURA能够观察一段视频,并生成与之对应的、听起来很自然的音频。比如,如果视频显示一个人在弹吉他,V-AURA可以生成吉他声音的音频。 项目主页:https://v-aura.notion.site GitHub:htt... 阅读全文

    优惠 音乐编解码器MuCodec:能够在极低的比特率下压缩和重建音乐

  • 音乐编解码器MuCodec:能够在极低的比特率下压缩和重建音乐
    AI
  • 清华大学深圳国际研究生院、腾讯人工智能实验室和香港中文大学的研究人员推出一个非常高效的音乐编解码器MuCodec,能够在极低的比特率下压缩和重建音乐。编解码器是一类软件,能够将音乐文件压缩成更小的体积进行存储或传输,同时保证在解压后尽可能保持音质。 项目主页:https://xuyaoxun.github.io/MuC... 阅读全文

    优惠 Kyutai推出实时语音到语音模型Moshi:通过模拟人类的对话方式,使得机器与人类的交流更加自然和流畅

  • Kyutai推出实时语音到语音模型Moshi:通过模拟人类的对话方式,使得机器与人类的交流更加自然和流畅
    AI
  • Kyutai推出实时语音到语音模型Moshi,它可以连续地倾听和说话,无需明确地建模发言人的转换或中断。例如,你有一个智能助手,它能够像真人一样与你进行流畅的对话,不仅理解你的话,还能用自然的声音回应你,那么Moshi就是实现这一目标的模型。 GitHub:https://github.com/kyutai-labs/... 阅读全文

    优惠 SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计

  • SSR-Speech:专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计
    AI
  • 约翰霍普金斯大学、腾讯人工智能实验室和南洋理工大学的研究人员推出新型神经编解码自回归模型SSR-Speech,它专为零样本(zero-shot)文本基础的语音编辑和文本到语音(TTS)合成设计,以实现稳定、安全和强大的性能。简单来说,SSR-Speech 能够根据文本指令修改或合成语音,而不需要在训练期间听到特定的说话... 阅读全文

    优惠 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音

  • 新型声音提取技术SoloAudio:用于从复杂的音频场景中提取特定的声音
    AI
  • 约翰霍普金斯大学电气与计算机工程系的研究人员推出新型声音提取技术SoloAudio。SoloAudio 是一个基于扩散模型的声音生成模型,专门设计用于从复杂的音频场景中提取特定的声音。这项技术可以帮助我们在有多种声音混杂的环境中,像人耳一样专注于并分离出我们感兴趣的那一种声音。 项目主页:https://wanghel... 阅读全文

    优惠 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列

  • 喜马拉雅推出高质量零样本(zero-shot)语音生成模型“Takin AudioLLM”系列
    AI
  • 喜马拉雅Everest团队推出高质量零样本(zero-shot)语音生成模型系列“Takin AudioLLM”。这个系列包括Takin TTS(Text-to-Speech,文本到语音)、Takin VC(Voice Conversion,声音转换)和Takin Morphing(声音变形)三个模型,它们专门设计用于... 阅读全文

    优惠 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX

  • 为了符号音乐处理而设计的大规模公共领域MusicXML数据集PDMX
    AI
  • 加州大学圣地亚哥分校推出大规模公共领域MusicXML数据集PDMX,它是为了符号音乐处理而设计的。符号音乐处理是指将音乐以乐谱形式进行分析和生成,这与音频领域的音乐生成不同,它更侧重于音乐的结构和符号表示。 项目主页:https://pnlong.github.io/PDMX.demo GitHub:https://... 阅读全文