优惠 Make-An-Agent:能够生成通用策略网络的系统
标签:Make-An-Agent
AI
4个月前 (07-17)AI
马里兰大学帕克分校、清华大学、加州大学圣地亚哥分校的研究人员推出创新方法Make-An-Agent,它是一个能够生成通用策略网络的系统。简单来说,就是通过观察一个智能体(比如机器人)的行为,这个系统能够自动生成控制这个智能体的策略,就像我们通过一段文本描述就能生成图像一样。这种方法大大简化了机器人控制策略的开发过程,使... 阅读全文
优惠 开源工具包VLMEvalKit:用于评估大型多模态模型
标签:VLMEvalKit
AI
4个月前 (07-17)AI
开源工具包VLMEvalKit,它用于评估大型多模态模型。这些模型能够处理并理解多种类型的数据,比如图像、文本、音频等。VLMEvalKit基于PyTorch框架,旨在为研究人员和开发者提供一个友好、全面的框架,以便他们评估现有的多模态模型,并发布可复现的评估结果。例如,你是一名计算机视觉研究人员,你开发了一个能够识别... 阅读全文
优惠 Click-Gaussian:用于实时3D场景操作的交互式分割方法
标签:Click-Gaussian
AI
4个月前 (07-17)AI
LG电子和首尔国立大学的研究人员推出Click-Gaussian,这是一种用于实时3D场景操作的交互式分割方法。简单来说,Click-Gaussian能够让用户通过单次点击就能在三维空间中选择和分割出他们想要的对象,无论是粗略的大致形状还是精细的细节。例如,你是一名游戏设计师,需要在虚拟现实环境中快速修改场景中的多个物... 阅读全文
优惠 谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25
4个月前 (07-17)AI
谷歌推出YouTube-SL-25,这是一个大规模、开放式的多语种手语平行语料库。简单来说,它包含了超过25种不同手语的视频,这些视频从YouTube上收集而来,并且配有相应的字幕。这个项目的目标是改善手语与文本之间的翻译,让机器更好地理解和生成手语。例如,一个听障人士想在视频会议上与他人交流,但不熟悉对方的手语,Yo... 阅读全文
优惠 3D编辑技术DreamCatalyst:基于SDS(分数蒸馏采样)的编辑解释为扩散模型的逆过程
4个月前 (07-17)AI
韩国科学技术研究院人工智能研究生院推出3D编辑技术DreamCatalyst,它将基于SDS(分数蒸馏采样)的编辑解释为扩散模型的逆过程。我们的目标函数考虑了采样动力学,从而使DreamCatalyst的优化过程成为了编辑任务中扩散逆过程的一种近似。DreamCatalyst旨在缩短训练时间并提高编辑质量。DreamC... 阅读全文