当前位置：首页 > 优惠 >AI音频>文章详情

新型文本到音频生成框架PicoAudio：专注于提供精确的时间戳和频率可控性

推荐人：暴走AI| 商城: AI | 1年前 (2024-07-04)| 分类：AI音频 | 热度：225 ℃

已关闭评论

上海交通大学X-LANCE实验室、上海人工智能实验室和香港中文大学（深圳）的研究人员推出新型文本到音频生成框架PicoAudio，它专注于提供精确的时间戳和频率可控性。简单来说，PicoAudio能够根据文本描述生成音频，并且能够精确控制音频中特定事件的发生时间和频率。

例如，你想制作一个关于农场的视频，需要在视频中准确地插入鸡鸣声、牛叫声和狗吠声，并且每种声音都有特定的出现时间和次数。使用PicoAudio，你只需要提供文本描述，比如“公鸡在早上6点打鸣一次，牛在7点到8点之间叫两次，狗在8点到9点之间叫三次”，PicoAudio就能够生成符合这些要求的音频。

主要功能和特点：

工作原理： PicoAudio的工作流程包括以下几个步骤：

具体应用场景：

PicoAudio

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：关于表格型机器学习的新基准测试集合TabReD

下一篇： S2TT：将大语言模型应用于语音到文本翻译任务

暂时木有评论

查看更多商品