AI音频

优惠 新型文本到音频生成框架PicoAudio:专注于提供精确的时间戳和频率可控性

  • 新型文本到音频生成框架PicoAudio:专注于提供精确的时间戳和频率可控性
    AI
  • 上海交通大学X-LANCE实验室、上海人工智能实验室和香港中文大学(深圳)的研究人员推出新型文本到音频生成框架PicoAudio,它专注于提供精确的时间戳和频率可控性。简单来说,PicoAudio能够根据文本描述生成音频,并且能够精确控制音频中特定事件的发生时间和频率。 项目主页:https://picoaudio.g... 阅读全文

    优惠 微软推出全新文本到语音转换系统E2 TTS:非自回归的零样本(zero-shot)文本到语音合成技术

  • 微软推出全新文本到语音转换系统E2 TTS:非自回归的零样本(zero-shot)文本到语音合成技术
    AI
  • 微软推出全新文本到语音转换系统E2 TTS(Embarrassingly Easy Text-to-Speech),这是一种非自回归(non-autoregressive)的零样本(zero-shot)文本到语音合成技术,意味着它能够在没有特定训练数据的情况下,模仿任何人的声音来生成自然听起来的语音。E2 TTS的提出... 阅读全文

    优惠 新型音乐生成模型JEN-1 DreamStyler:根据用户提供的参考音乐片段,学习并捕捉音乐中的独特概念,然后生成符合这一概念的新音乐作品

  • 新型音乐生成模型JEN-1 DreamStyler:根据用户提供的参考音乐片段,学习并捕捉音乐中的独特概念,然后生成符合这一概念的新音乐作品
    AI
  • 新型音乐生成模型JEN-1 DreamStyler,它能够根据用户提供的参考音乐片段,学习并捕捉音乐中的独特概念,然后生成符合这一概念的新音乐作品。JEN-1 DreamStyler在定性和定量评估中都优于几个基线模型,并且提供了演示,可以在其网站上听到生成的音乐示例。此外,论文还介绍了一个新的数据集和评估协议来支持这... 阅读全文

    优惠 专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)

  • 专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)
    AI
  • 英国萨里大学和英国伦敦帝国理工学院的研究人员推出新型模型AV-GS(Audio-Visual Gaussian Splatting),它专门用于新视角声音合成(Novel View Acoustic Synthesis, NVAS),即在三维空间中,根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)。... 阅读全文

    优惠 Adob​​e推出音频语言模型GAMA:具有先进的音频理解和复杂推理能力

  • Adob​​e推出音频语言模型GAMA:具有先进的音频理解和复杂推理能力
    AI
  • 马里兰大学和Adob​​e推出新型大型音频语言模型GAMA,它具有先进的音频理解和复杂推理能力。例如,你的智能助手不仅能听懂你说的话,还能理解周围环境中的声音,比如鸟鸣、汽车声或者人们的谈话声,甚至能够根据这些声音做出合理的推断,那么GAMA就能做到这一点。 项目主页:https://sreyan88.github.i... 阅读全文

    优惠 微软推出先进神经编解码语言模型VALL-E 2

  • 微软推出先进神经编解码语言模型VALL-E 2
    AI
  • 微软推出先进神经编解码语言模型VALL-E 2,它在零样本文本到语音合成(TTS)领域取得了突破性进展,首次实现了与人类同等水平的表现。VALL-E 2是一个纯粹的研究项目,目前还没有计划将其纳入产品或向公众开放。尽管VALL-E 2能够合成类似专业配音的语音,但其相似度和自然度取决于语音提示的长度和质量、背景噪音以及... 阅读全文

    优惠 开源 AI 可穿戴设备Friend:能够记录您的对话,实时为您提供反馈和建议

  • 开源 AI 可穿戴设备Friend:能够记录您的对话,实时为您提供反馈和建议
    AI
  • Friend是一款创新的开源 AI 可穿戴设备,它能够记录您的对话,实时为您提供反馈和建议,而且单次充电后的使用时间可以超过 6 天。这款设备是您日常生活中的智能伴侣,无论工作还是休闲,都能提供贴心的辅助。 主要特点包括: 实时 AI 音频处理:设备内置的 AI 技术能够即时分析您的声音,帮助您捕捉重要信息。 低功耗蓝... 阅读全文

    优惠 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术

  • 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术
    AI
  • 微软推出LiveSpeech系统,它是一种低延迟的零样本(zero-shot)文本到语音(Text-to-Speech, TTS)合成技术。零样本意味着系统可以在没有特定说话人数据训练的情况下,模仿任何人的声音来生成语音。这项技术特别适用于需要快速响应的实时或低延迟场景,例如实时翻译、口音转换、语音简化或去除语言不流畅... 阅读全文

    优惠 StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效

  • StabilityAI推出全新开源模型Stable Audio Open:能够生成长达 47 秒的音频样本和音效
    AI
  • 关键信息摘要: Stable Audio Open 是一个开源的文本到音频模型,能够生成长达 47 秒的音频样本和音效。 用户可以创作鼓点、乐器即兴重复段、环境声、拟音以及制作所需的音频元素。 该模型支持音频变化和音频样本的风格转换。 StabilityAI推出了全新的开源模型Stable Audio Open,这是一... 阅读全文

    优惠 字节推出文本到语音模型家族Seed-TTS:能够生成与人类语音几乎无法区分的高质量语音

  • 字节推出文本到语音模型家族Seed-TTS:能够生成与人类语音几乎无法区分的高质量语音
    AI
  • 字节跳动推出文本到语音(Text-to-Speech, TTS)模型家族Seed-TTS,它们能够生成与人类语音几乎无法区分的高质量语音。Seed-TTS模型家族通过其先进的技术,为语音合成领域带来了革命性的进步,使得机器生成的语音更加自然和富有表现力,同时提供了强大的控制能力和编辑功能,适用于多种实际应用场景。 主要... 阅读全文

    优惠 AI创作音效新工具!ElevenLabs推出“Sound Effects”

  • AI创作音效新工具!ElevenLabs推出“Sound Effects”
    AI
  • 人工智能领域的创新不断突破,ElevenLabs 最新推出了名为“Sound Effects”的工具,它能够根据文本描述生成最长22秒的音效,为播客、电影或游戏创作提供强大支持。这一新工具的加入,使得 ElevenLabs 的产品线更加丰富,包括原有的语音和音乐平台。ElevenLabs 与知名素材平台 Shutter... 阅读全文

    优惠 索尼推出新型人工智能系统Instruct-MusicGen:能够根据文本指令来编辑音乐

  • 索尼推出新型人工智能系统Instruct-MusicGen:能够根据文本指令来编辑音乐
    AI
  • 索尼推出新型人工智能系统Instruct-MusicGen,它能够根据文本指令来编辑音乐。想象一下,你告诉这个系统“加一段鼓点”,它就能在现有的音乐中加入鼓声,或者你让它“去掉钢琴声”,它就能把钢琴的旋律部分移除。这就像是有一个音乐编辑的魔法棒,你说什么,它就变什么。 主要功能: Instruct-MusicGen的主... 阅读全文