AI音频

优惠 索尼推出新型文本到声音生成模型SoundCTM:旨在为多媒体作品(如视频游戏、音乐和电影)创造声音内容,这些声音内容包括音效和Foley声音

  • 索尼推出新型文本到声音生成模型SoundCTM:旨在为多媒体作品(如视频游戏、音乐和电影)创造声音内容,这些声音内容包括音效和Foley声音
    AI
  • 索尼推出新型文本到声音生成模型SoundCTM(Sound Consistency Trajectory Models),SoundCTM旨在为多媒体作品(如视频游戏、音乐和电影)创造声音内容,这些声音内容包括音效和Foley声音(指在后期制作中添加的声音效果,如脚步声、玻璃破碎声等)。例如,你正在制作一个视频游戏,需... 阅读全文

    优惠 Adob​​e推出AI音乐生成新技术DITTO-2:加速可控音乐生成过程,使其能够实时或更快地生成音乐,同时提高音乐质量和控制精度

  • Adob​​e推出AI音乐生成新技术DITTO-2:加速可控音乐生成过程,使其能够实时或更快地生成音乐,同时提高音乐质量和控制精度
    AI
  • 加州大学圣地亚哥分校和Adob​​e 研究部的研究人员推出DITTO-2,它是用于音乐生成的人工智能技术。DITTO-2的核心目标是加速可控音乐生成过程,使其能够实时或更快地生成音乐,同时提高音乐质量和控制精度。例如,你是一位电影制片人,需要为电影中的特定场景定制一段背景音乐。使用DITTO-2,你可以指定音乐的风格、... 阅读全文

    优惠 新型音频编解码器SemantiCodec:能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息

  • 新型音频编解码器SemantiCodec:能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息
    AI
  • 来自萨里大学和上海交通大学的研究人员推出新型音频编解码器SemantiCodec,它能够在极低的比特率下对音频进行压缩和重建,同时保留丰富的语义信息。这种编解码器特别适合于需要在保持音频质量的同时减少数据大小的场景,例如在带宽有限的网络环境中传输音频或者在存储空间受限的设备上存储音频。 实验结果显示,SemantiCo... 阅读全文

    优惠 高度精确且轻量级的唤醒词引擎Porcupine,它使得开发始终处于监听状态的语音交互应用成为可能

  • 高度精确且轻量级的唤醒词引擎Porcupine,它使得开发始终处于监听状态的语音交互应用成为可能
    AI
  • Picovoice 是一个面向开发者的平台,让您能够按照自己的需求构建语音产品。与亚马逊或谷歌不同的是,Picovoice 的人工智能技术完全在设备端运行,同时保证更高的准确性。通过 Picovoice,您可以实现关键词检测、语音指令控制、语音用户界面(VUI)、音素搜索、自动语音识别(ASR)、语音转文字(STT)、... 阅读全文

    优惠 新型零样本(Zero-Shot)语音合成系统FlashSpeech

  • 新型零样本(Zero-Shot)语音合成系统FlashSpeech
    AI
  • 来自香港科技大学、MSRA、萨里大学、内蒙古大学、北京邮电大学和新加坡国立大学的研究人员推出新型零样本(Zero-Shot)语音合成系统FlashSpeech,零样本语音合成是指在没有特定说话人数据训练的情况下,能够模仿该说话人的声音来生成语音的技术。这项技术可以应用于多种场景,比如为电影角色配音、创建个性化的虚拟助手... 阅读全文

    优惠 昆仑万维推出新型音乐生成模型MusicCM

  • 昆仑万维推出新型音乐生成模型MusicCM
    AI
  • 昆仑万维推出新型音乐生成模型Music Consistency Models(MusicCM),MusicCM的目标是提高音乐生成的效率和质量,它借鉴了图像和视频生成中常用的一致性模型(consistency models)的概念,以更少的采样步骤高效地合成音乐片段。 主要功能和特点: 高效音乐生成:MusicCM能够... 阅读全文

    优惠 轻量级的文本到语音(TTS)模型Parler-TTS,能够生成具有特定说话者风格(性别、音高、说话方式等)的高质量、自然听起来的语音

  • 轻量级的文本到语音(TTS)模型Parler-TTS,能够生成具有特定说话者风格(性别、音高、说话方式等)的高质量、自然听起来的语音
    AI
  • Parler-TTS 是一个轻量级的文本到语音(TTS)模型,能够生成具有特定说话者风格(性别、音高、说话方式等)的高质量、自然听起来的语音。这个模型是 Stability AI 和爱丁堡大学 Dan Lyth 和 Simon King 两位作者在论文 "Natural language guidance of hig... 阅读全文

    优惠 Stability AI发布Stable Audio 2.0技术论文

  • Stability AI发布Stable Audio 2.0技术论文
    AI
  • Stability AI之前推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。官方在昨天发布该模型的技术论文,由Stability A通过训练一个基于扩散变换器(diffusion... 阅读全文

    优惠 Suno的竞争对手出现了!前谷歌 DeepMind创立的Udio正式上线,免费用户每月可以生成1200首歌

  • Suno的竞争对手出现了!前谷歌 DeepMind创立的Udio正式上线,免费用户每月可以生成1200首歌
    AI
  • Suno的竞争对手出现了!由前谷歌 DeepMind 的领先 AI 研究员和工程师创立的Udio正式上线,目前处于免费测试阶段,用户每月可以生成1200首歌。相比Suno,Udio生成的歌曲时长更长,人声更加优质,偏向于模仿真实的歌手。不过目前由于使用人数过多,网站处于报错状态,大家可以明后天再进行测试。 官方介绍: ... 阅读全文

    优惠 新型文本到语音(TTS)合成方法RALL-E

  • 新型文本到语音(TTS)合成方法RALL-E
    AI
  • 来自微软、 东京大学、浙江大学、中国科学技术大学、香港中文大学和香港中文大学(深圳)的研究人员推出新型文本到语音(TTS)合成方法RALL-E,它通过改进语音的音调和时长预测,以及增强模型对音素的关注,从而生成更加准确和自然的语音输出。想象一下,你有一段文字,想要让它变成流畅自然的语音,就像有人在朗读一样。RALL-E... 阅读全文

    优惠 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成

  • 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成
    AI
  • 来自德克萨斯大学奥斯汀分校和Rembrand的研究团队推出先进语音合成模型VOICECRAFT,它能够在不需要任何额外文本的情况下,对语音进行编辑和合成,这被称为零样本文本到语音(TTS)任务。想象一下,你有一段录音,想要改变里面的某些词语或者语调,而不需要重新录制整个句子,VOICECRAFT就能够做到这一点。同样,... 阅读全文

    优惠 Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐

  • Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐
    AI
  • Stability AI在今天推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。目前免费用户可生成10首歌曲,不过从听感来说,生成的歌曲并不如Suno的好听,Stable Audi... 阅读全文