优惠新模型MaskVAT：根据无声视频生成与之匹配的音频

AI

推荐人：暴走AI 标签：MaskVAT AI

2年前 (2024-07-17)AI

杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT（Masked Generative Video-to-Audio Transformers），它能够根据无声视频生成与之匹配的音频。简单来说，就是让计算机“看”一段没有声音的视频，然后“想象”出视频中应有的声音，比如人的对话声、环境声等。在一些具体的实验... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠 Make-An-Agent：能够生成通用策略网络的系统

AI

推荐人：暴走AI 标签：Make-An-Agent AI

2年前 (2024-07-17)AI

马里兰大学帕克分校、清华大学、加州大学圣地亚哥分校的研究人员推出创新方法Make-An-Agent，它是一个能够生成通用策略网络的系统。简单来说，就是通过观察一个智能体（比如机器人）的行为，这个系统能够自动生成控制这个智能体的策略，就像我们通过一段文本描述就能生成图像一样。这种方法大大简化了机器人控制策略的开发过程，使... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠虚拟仿真平台GRUtopia：推动和评估高级具身智能（Embodied AI）研究而设计

AI

推荐人：暴走AI 标签：GRUtopia AI

2年前 (2024-07-17)AI

上海人工智能实验室OpenRobotLab、浙江大学、上海交通大学、清华大学、南京大学、香港中文大学和西安电子科技大学的研究人员推出虚拟仿真平台GRUtopia，它是为了推动和评估高级具身智能（Embodied AI）研究而设计的。具身智能，简单来说，就是让机器或机器人能够通过身体与环境互动，完成一些任务，比如导航、社... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 GoodBadGreedy：大语言模型在生成文本时的非确定性问题

AI

推荐人：暴走AI 标签：大语言模型 AI

2年前 (2024-07-17)AI

北京大学和艾伦人工智能研究所的研究人员发布论文，论文的主题是探讨大语言模型（LLMs）在生成文本时的非确定性问题。非确定性是指同样的输入在不同的生成配置下可能会产生显著不同的输出。论文的核心观点是，目前对LLMs的评估往往忽视了这种非确定性，而更多地关注单一输出结果。 GitHub：https://github.com... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源工具包VLMEvalKit：用于评估大型多模态模型

AI

推荐人：暴走AI 标签：VLMEvalKit AI

2年前 (2024-07-17)AI

开源工具包VLMEvalKit，它用于评估大型多模态模型。这些模型能够处理并理解多种类型的数据，比如图像、文本、音频等。VLMEvalKit基于PyTorch框架，旨在为研究人员和开发者提供一个友好、全面的框架，以便他们评估现有的多模态模型，并发布可复现的评估结果。例如，你是一名计算机视觉研究人员，你开发了一个能够识别... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态联合表示模型OmniBind：能够处理包括3D、音频、图像和语言输入在内的多种数据类型

AI

推荐人：暴走AI 标签：OmniBind AI

2年前 (2024-07-17)AI

浙江大学和香港大学的研究人员推出OmniBind，这是一种大规模的多模态联合表示模型，能够处理包括3D、音频、图像和语言输入在内的多种数据类型。简单来说，OmniBind就像一个多语言的超级翻译器，但它不仅仅是翻译语言，它还能理解和转换不同类型的数据，比如将文字描述转换成3D模型，或者根据声音找到对应的图像。例如，你... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Click-Gaussian：用于实时3D场景操作的交互式分割方法

AI

推荐人：暴走AI 标签：Click-Gaussian AI

2年前 (2024-07-17)AI

LG电子和首尔国立大学的研究人员推出Click-Gaussian，这是一种用于实时3D场景操作的交互式分割方法。简单来说，Click-Gaussian能够让用户通过单次点击就能在三维空间中选择和分割出他们想要的对象，无论是粗略的大致形状还是精细的细节。例如，你是一名游戏设计师，需要在虚拟现实环境中快速修改场景中的多个物... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25

AI

推荐人：暴走AI 标签：YouTube-SL-25 谷歌 AI

2年前 (2024-07-17)AI

谷歌推出YouTube-SL-25，这是一个大规模、开放式的多语种手语平行语料库。简单来说，它包含了超过25种不同手语的视频，这些视频从YouTube上收集而来，并且配有相应的字幕。这个项目的目标是改善手语与文本之间的翻译，让机器更好地理解和生成手语。例如，一个听障人士想在视频会议上与他人交流，但不熟悉对方的手语，Yo... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Omnigrasp：让虚拟的仿人机器人能够抓住各种不同的物体，并让这些物体沿着复杂的轨迹移动

AI

推荐人：暴走AI 标签：Omnigrasp 仿人机器人 AI

2年前 (2024-07-17)AI

卡内基梅隆大学、Meta和苏黎世联邦理工学院的研究人员推出Omnigrasp，它可以让虚拟的仿人机器人（humanoids）能够抓住各种不同的物体，并让这些物体沿着复杂的轨迹移动。想象一下，就像是一个电子游戏里的角色，不仅能拿起一个苹果，还能让它沿着一个曲线抛向空中，然后再接住它。项目主页：https://www.z... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 3D编辑技术DreamCatalyst：基于SDS（分数蒸馏采样）的编辑解释为扩散模型的逆过程

AI

推荐人：暴走AI 标签：3D编辑技术 DreamCatalyst AI

2年前 (2024-07-17)AI

韩国科学技术研究院人工智能研究生院推出3D编辑技术DreamCatalyst，它将基于SDS（分数蒸馏采样）的编辑解释为扩散模型的逆过程。我们的目标函数考虑了采样动力学，从而使DreamCatalyst的优化过程成为了编辑任务中扩散逆过程的一种近似。DreamCatalyst旨在缩短训练时间并提高编辑质量。DreamC... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 WeLore（权重低秩投影）：以一种与数据无关且一次性的方式，统一了权重压缩和内存高效微调

AI

推荐人：暴走AI 标签：WeLore 权重低秩投影 AI

2年前 (2024-07-17)AI

德克萨斯大学奥斯汀分校、萨里大学、牛津大学、加州理工学院和Meta AI的研究人员推出“权重低秩投影”（Weight Low-Rank Projection，简称WeLore），它以一种与数据无关且一次性的方式，统一了权重压缩和内存高效微调。WeLore利用奇异值的重尾分布来识别适合LLMs中矩阵的秩减比例。除了作为压... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Animate3D：通过一种特殊的方法，让静态的3D模型变得生动活泼，就像赋予了它们生命一样

AI

推荐人：暴走AI 标签：Animate3D AI

2年前 (2024-07-17)AI

中国科学院自动化研究所和阿里巴巴集团达摩院的研究人员推出一种让3D模型动起来的技术Animate3D，它可以通过一种特殊的方法，让静态的3D模型变得生动活泼，就像赋予了它们生命一样。例如，你是一名游戏开发者，需要在游戏中创建一个会动的卡通角色。你可以先用3D建模软件设计这个角色的静态模型，然后使用Animate3D让这... 阅读全文

直达链接好 0 不好 0 已关闭评论