AI
优惠 微软推出LiveSpeech系统:低延迟的零样本TTS合成技术
6个月前 (06-06)
微软推出LiveSpeech系统,它是一种低延迟的零样本(zero-shot)文本到语音(Text-to-Speech, TTS)合成技术。零样本意味着系统可以在没有特定说话人数据训练的情况下,模仿任何人的声音来生成语音。这项技术特别适用于需要快速响应的实时或低延迟场景,例如实时翻译、口音转换、语音简化或去除语言不流畅... 阅读全文
优惠 新型音频表示学习模型Audio Mamba:基于状态空间模型构建的
6个月前 (06-06)AI
韩国科学技术院推出新型音频表示学习模型Audio Mamba(AuM),它是基于状态空间模型(State Space Models, SSMs)构建的,与传统的基于自注意力(self-attention)机制的Transformer模型不同,AuM不依赖于计算密集型的自注意力机制。例如,我们有一段音频,我们想要识别这段... 阅读全文
优惠 新型神经网络架构Block Transformer:用于提升自然语言处理(NLP)任务中的推断速度
6个月前 (06-06)AI
韩国科学技术研究院、LG 人工智能研究和Google DeepMind的研究人员推出新型神经网络架构Block Transformer,它主要用于提升自然语言处理(NLP)任务中的推断速度。在NLP中,Transformer模型是一种非常强大的工具,它能够处理诸如语言翻译、文本摘要等任务。但传统的Transformer... 阅读全文
优惠 新型图像到3D生成框架Ouroboros3D:将多视角图像生成和3D重建集成到一个递归扩散过程中,通过自条件机制联合训练这两个模块,使它们能够相互适应,从而实现更稳健的推理
标签:Ouroboros3D
AI
6个月前 (06-06)AI
北京航空航天大学、上海人工智能实验室和VAST推出新型图像到3D生成框架Ouroboros3D,这个框架的核心特点是将多视角图像生成和3D重建集成到一个递归扩散过程中,通过自条件机制联合训练这两个模块,使它们能够相互适应,从而实现更稳健的推理。实验结果,证明了Ouroboros3D在生成多视角图像和3D表示的质量上优于... 阅读全文
优惠 Mobile-Agent-v2: 通过多代理协作有效导航的移动设备操作助手
6个月前 (06-06)AI
北京交通大学和阿里巴巴集团的研究人员推出移动设备操作助手Mobile-Agent-v2,它通过多智能体(多个代理)的协作来有效导航和执行任务。这个系统是为了解决现有技术在处理移动设备操作任务时面临的两大挑战:任务进度导航和焦点内容导航。这些挑战在单一智能体架构下很难有效解决,主要是因为操作历史序列很长,且包含交错的文本... 阅读全文