当前位置：首页 > 优惠 >AI音频>文章详情

avsoundscape：能够改变输入语音的声学特性，使其听起来像是在另一个不同的场景中录制的

推荐人：暴走AI| 商城: AI | 7个月前 (09-24)| 分类：AI音频 | 热度：350 ℃

已关闭评论

avsoundscape：能够改变输入语音的声学特性，使其听起来像是在另一个不同的场景中录制的

AI

加州大学伯克利分校、Meta和密歇根大学的研究人员推出Self-Supervised Audio-Visual Soundscape Stylization技术，它能够改变输入语音的声学特性，使其听起来像是在另一个不同的场景中录制的。简单来说，就是可以通过这个技术，把一段语音处理得好像它是在某个特定环境中产生的，比如在海滩、森林或是繁忙的街道。

项目主页：https://tinglok.netlify.app/files/avsoundscape
GitHub：https://github.com/Tinglok/avsoundscape

主要功能：

改变语音的回声特性（如回声大小）。
添加或减少环境声音（如海浪声、风声）。

主要特点：

自监督学习： 模型通过分析视频中的声音和视觉内容自学，而不需要额外的标注。
音频-视觉结合： 利用视频的视觉信息来改善声音预测的能力。
跨语言和跨领域应用： 可以在不同的语言和声音环境中使用。

工作原理：

声音增强： 从视频中提取音频片段，并进行声音增强处理。
训练模型： 使用另一个视频中的音频-视觉片段作为条件，训练一个潜在扩散模型来恢复原始语音。这个过程中，模型学习如何将条件示例的声音属性转移到输入语音上。

具体应用场景：

电影配音： 可以将演员的语音处理得更符合电影场景。
虚拟现实： 在虚拟环境中，根据视觉场景调整语音效果，提升沉浸感。
语音合成： 为合成语音添加特定环境的声音效果，使其更自然。

论文中还提到，这个模型可以通过分析视频中的音频和视觉内容，在没有人工标注的情况下进行自我训练。这意味着，只要给模型提供足够的视频素材，它就能学会如何将特定环境的声音效果应用到任何输入的语音上。

avsoundscape

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：谷歌推出零样本跨语言声音转换技术Zero-shot Cross-lingual Voice Transfer

下一篇：免费在线图片压缩工具Compress JPG

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录