优惠新型文本到音频生成框架PicoAudio：专注于提供精确的时间戳和频率可控性

AI

推荐人：暴走AI 标签：PicoAudio AI

6个月前 (07-04)AI

上海交通大学X-LANCE实验室、上海人工智能实验室和香港中文大学（深圳）的研究人员推出新型文本到音频生成框架PicoAudio，它专注于提供精确的时间戳和频率可控性。简单来说，PicoAudio能够根据文本描述生成音频，并且能够精确控制音频中特定事件的发生时间和频率。项目主页：https://picoaudio.g... 阅读全文

直达链接好 0 不好 0 0

优惠微软推出全新文本到语音转换系统E2 TTS：非自回归的零样本（zero-shot）文本到语音合成技术

AI

推荐人：暴走AI 标签：E2 TTS 微软 AI

6个月前 (07-04)AI

微软推出全新文本到语音转换系统E2 TTS（Embarrassingly Easy Text-to-Speech），这是一种非自回归（non-autoregressive）的零样本（zero-shot）文本到语音合成技术，意味着它能够在没有特定训练数据的情况下，模仿任何人的声音来生成自然听起来的语音。E2 TTS的提出... 阅读全文

直达链接好 0 不好 0 0

优惠新型音乐生成模型JEN-1 DreamStyler：根据用户提供的参考音乐片段，学习并捕捉音乐中的独特概念，然后生成符合这一概念的新音乐作品

AI

推荐人：暴走AI 标签：JEN-1 DreamStyler AI

6个月前 (06-19)AI

新型音乐生成模型JEN-1 DreamStyler，它能够根据用户提供的参考音乐片段，学习并捕捉音乐中的独特概念，然后生成符合这一概念的新音乐作品。JEN-1 DreamStyler在定性和定量评估中都优于几个基线模型，并且提供了演示，可以在其网站上听到生成的音乐示例。此外，论文还介绍了一个新的数据集和评估协议来支持这... 阅读全文

直达链接好 0 不好 0 0

优惠专门用于新视角声音合成的新型模型AV-GS：根据单一音源发出的单声道音频，生成任何目标视点的双声道音频（立体声）

AI

推荐人：暴走AI 标签：AV-GS AI

7个月前 (06-18)AI

英国萨里大学和英国伦敦帝国理工学院的研究人员推出新型模型AV-GS（Audio-Visual Gaussian Splatting），它专门用于新视角声音合成（Novel View Acoustic Synthesis, NVAS），即在三维空间中，根据单一音源发出的单声道音频，生成任何目标视点的双声道音频（立体声）。... 阅读全文

直达链接好 0 不好 0 0

优惠 Adobe推出音频语言模型GAMA：具有先进的音频理解和复杂推理能力

AI

推荐人：暴走AI 标签：GAMA AI

7个月前 (06-18)AI

马里兰大学和Adobe推出新型大型音频语言模型GAMA，它具有先进的音频理解和复杂推理能力。例如，你的智能助手不仅能听懂你说的话，还能理解周围环境中的声音，比如鸟鸣、汽车声或者人们的谈话声，甚至能够根据这些声音做出合理的推断，那么GAMA就能做到这一点。项目主页：https://sreyan88.github.i... 阅读全文

直达链接好 0 不好 0 0

优惠微软推出先进神经编解码语言模型VALL-E 2

AI

推荐人：暴走AI 标签：VALL-E 2 AI

7个月前 (06-11)AI

微软推出先进神经编解码语言模型VALL-E 2，它在零样本文本到语音合成（TTS）领域取得了突破性进展，首次实现了与人类同等水平的表现。VALL-E 2是一个纯粹的研究项目，目前还没有计划将其纳入产品或向公众开放。尽管VALL-E 2能够合成类似专业配音的语音，但其相似度和自然度取决于语音提示的长度和质量、背景噪音以及... 阅读全文

直达链接好 0 不好 0 0

优惠开源 AI 可穿戴设备Friend：能够记录您的对话，实时为您提供反馈和建议

AI

推荐人：暴走AI 标签：Friend AI

7个月前 (06-09)AI

Friend是一款创新的开源 AI 可穿戴设备，它能够记录您的对话，实时为您提供反馈和建议，而且单次充电后的使用时间可以超过 6 天。这款设备是您日常生活中的智能伴侣，无论工作还是休闲，都能提供贴心的辅助。主要特点包括：实时 AI 音频处理：设备内置的 AI 技术能够即时分析您的声音，帮助您捕捉重要信息。低功耗蓝... 阅读全文

直达链接好 0 不好 0 0

优惠微软推出LiveSpeech系统：低延迟的零样本TTS合成技术

AI

推荐人：暴走AI 标签：LiveSpeech TTS 微软 AI

7个月前 (06-06)

微软推出LiveSpeech系统，它是一种低延迟的零样本（zero-shot）文本到语音（Text-to-Speech, TTS）合成技术。零样本意味着系统可以在没有特定说话人数据训练的情况下，模仿任何人的声音来生成语音。这项技术特别适用于需要快速响应的实时或低延迟场景，例如实时翻译、口音转换、语音简化或去除语言不流畅... 阅读全文

直达链接好 0 不好 0 0

优惠 StabilityAI推出全新开源模型Stable Audio Open：能够生成长达 47 秒的音频样本和音效

AI

推荐人：暴走AI 标签：StabilityAI推 Stable Audio Open AI

7个月前 (06-05)AI

关键信息摘要： Stable Audio Open 是一个开源的文本到音频模型，能够生成长达 47 秒的音频样本和音效。用户可以创作鼓点、乐器即兴重复段、环境声、拟音以及制作所需的音频元素。该模型支持音频变化和音频样本的风格转换。 StabilityAI推出了全新的开源模型Stable Audio Open，这是一... 阅读全文

直达链接好 0 不好 0 0

优惠字节推出文本到语音模型家族Seed-TTS：能够生成与人类语音几乎无法区分的高质量语音

AI

推荐人：暴走AI 标签：Seed-TTS 字节跳动 AI

7个月前 (06-05)AI

字节跳动推出文本到语音（Text-to-Speech, TTS）模型家族Seed-TTS，它们能够生成与人类语音几乎无法区分的高质量语音。Seed-TTS模型家族通过其先进的技术，为语音合成领域带来了革命性的进步，使得机器生成的语音更加自然和富有表现力，同时提供了强大的控制能力和编辑功能，适用于多种实际应用场景。主要... 阅读全文

直达链接好 0 不好 0 0

优惠 AI创作音效新工具！ElevenLabs推出“Sound Effects”

AI

推荐人：暴走AI 标签：ElevenLabs Sound Effects AI

7个月前 (06-02)AI

人工智能领域的创新不断突破，ElevenLabs 最新推出了名为“Sound Effects”的工具，它能够根据文本描述生成最长22秒的音效，为播客、电影或游戏创作提供强大支持。这一新工具的加入，使得 ElevenLabs 的产品线更加丰富，包括原有的语音和音乐平台。ElevenLabs 与知名素材平台 Shutter... 阅读全文

直达链接好 0 不好 0 0

优惠索尼推出新型人工智能系统Instruct-MusicGen：能够根据文本指令来编辑音乐

AI

推荐人：暴走AI 标签：Instruct-MusicGen 索尼 AI

7个月前 (06-01)AI

索尼推出新型人工智能系统Instruct-MusicGen，它能够根据文本指令来编辑音乐。想象一下，你告诉这个系统“加一段鼓点”，它就能在现有的音乐中加入鼓声，或者你让它“去掉钢琴声”，它就能把钢琴的旋律部分移除。这就像是有一个音乐编辑的魔法棒，你说什么，它就变什么。主要功能： Instruct-MusicGen的主... 阅读全文

直达链接好 0 不好 0 0