优惠 DAAG：结合了大语言模型、视觉语言模型和扩散模型，以提高强化学习中具身代理的样本效率和迁移学习能力

AI

推荐人：暴走AI 标签：DAAG AI

2年前 (2024-07-31)AI

伦敦帝国理工学院和谷歌 DeepMind的研究人员推出新框架Diffusion Augmented Agents（简称DAAG），它结合了大语言模型、视觉语言模型和扩散模型，以提高强化学习中具身代理（embodied agents）的样本效率和迁移学习能 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠物体与地面重建模型ORG：能够从单目图像中同时重建3D物体、估计相机参数，并模拟物体与地面的关系

AI

推荐人：暴走AI 标签：ORG AI

2年前 (2024-07-30)AI

伊利诺伊大学厄巴纳-香槟分校、普渡大学和Adobe的研究人员推出ORG（Object Reconstruction with Ground，物体与地面重建）的模型，它能够从单目图像中同时重建3D物体、估计相机参数，并模拟物体与地面的关系。这项 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠计算机视觉模型VSSD：通过改进状态空间模型（SSMs）来提高处理长序列数据的能力，同时保持了对全局信息的接收能力

AI

推荐人：暴走AI 标签：VSSD AI

2年前 (2024-07-30)AI

香港城市大学、天津大学和悉尼大学的研究人员推出新型的计算机视觉模型VSSD，它通过改进状态空间模型（SSMs）来提高处理长序列数据的能力，同时保持了对全局信息的接收能力。这项技术为计算机视觉领域提供了一种新的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠自动化的视频字幕生成框架Wolf

AI

推荐人：暴走AI 标签：Wolf AI

2年前 (2024-07-30)AI

英伟达、加州大学伯克利分校、麻省理工学院、德州奥斯汀分校、多伦多大学和斯坦福大学的研究人员推出一个用于视频字幕生成的世界摘要框架Wolf，Wolf是一个自动化的视频字幕生成框架，它采用了一种专家混合的方法，利 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠用于评估交互式编程智能体的基准测试环境AppWorld

AI

推荐人：暴走AI 标签：AppWorld AI

2年前 (2024-07-30)AI

石溪大学、艾伦人工智能研究所和萨尔大学的研究人员推出一个名为AppWorld的框架，这是一个用于评估交互式编程智能体的基准测试环境。AppWorld框架包括一个AppWorld Engine和一个AppWorld Benchmark。这项技术为开发 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 SHIC：用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系

AI

推荐人：暴走AI 标签：SHIC AI

2年前 (2024-07-30)AI

牛津大学视觉几何组的研究人员推出新技术SHIC，用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系。简单来说，这项技术可以自动识别图片中物体的每个像素点，并将其与3D模型中的相应点对应起来，而不需要 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 WalkTheDog：理解和对齐不同形态（如人和狗）的运动数据集

AI

推荐人：暴走AI 标签：WalkTheDog AI

2年前 (2024-07-30)AI

苏黎世联邦理工学院和Meta Reality Labs的研究人员推出WalkTheDog，这种新方法来理解和对齐不同形态（如人和狗）的运动数据集。这个方法的核心是“相位流形（Phase Manifolds）”，它能够将具有不同骨骼结构的角色的运 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Bridging the Gap：将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图，进而用于创建高质量的3D头像

AI

推荐人：暴走AI 标签：Bridging the Gap AI

2年前 (2024-07-30)AI

Captions Research、Meta Reality Labs和石溪大学的研究人员推出新技术Bridging the Gap，它能够将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图，进而用于创建高质量的3D头像。例如， ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠三维多模态问题回答技术City-3DQA：用于城市场景理解。这项技术能够帮助智能代理（如自动驾驶汽车、智能助手等）更好地理解它们所处的三维环境

AI

推荐人：暴走AI 标签：City-3DQA AI

2年前 (2024-07-30)AI

香港科技大学（广州）、浙江大学、广州大学、哈尔滨工业大学的研究人员推出一种新型的三维多模态问题回答（3D MQA）技术，用于城市场景理解。这项技术能够帮助智能代理（如自动驾驶汽车、智能助手等）更好地理解它们 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 3D生成框架Cycle3D：将2D图片转换成高质量的3D模型，这个转换过程既保持了图像的纹理细节，又确保了3D模型的多视角一致性

AI

推荐人：暴走AI 标签：Cycle3D AI

2年前 (2024-07-30)AI

北京大学、鹏程实验室和新加坡国立大学的研究人员推出新型图像到3D生成框架Cycle3D，Cycle3D的目标是将2D图片转换成高质量的3D模型，这个转换过程既保持了图像的纹理细节，又确保了3D模型的多视角一致性。例如，你是 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠苹果推出全面基准测试MMAU：评估大语言模型作为智能代理在多个领域的能力

AI

推荐人：暴走AI 标签：MMAU 基准测试 AI

2年前 (2024-07-30)AI

苹果推出全面基准测试MMAU（Massive Multitask Agent Understanding），它用于评估大语言模型（LLMs）作为智能代理在多个领域的能力。MMAU通过一系列精心设计的任务，来测试和分析这些模型在理解、推理、规划、解决 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源AI 搜索引擎框架MindSearch （思·索）：模仿人类的思维方式来执行网络信息搜索和整合任务

AI

推荐人：暴走AI 标签：AI 搜索引擎 MindSearch 思·索 AI

2年前 (2024-07-30)AI

MindSearch （思·索）是一个开源的 AI 搜索引擎框架，具有与 Perplexity.ai Pro 相同的性能。您可以轻松部署它来构建您自己的搜索引擎，可以使用闭源 LLM（如 GPT、Claude）或开源 LLM（如 InternLM2.5-7b-chat）。 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

AI

优惠 DAAG：结合了大语言模型、视觉语言模型和扩散模型，以提高强化学习中具身代理的样本效率和迁移学习能力

优惠物体与地面重建模型ORG：能够从单目图像中同时重建3D物体、估计相机参数，并模拟物体与地面的关系

优惠计算机视觉模型VSSD：通过改进状态空间模型（SSMs）来提高处理长序列数据的能力，同时保持了对全局信息的接收能力

优惠自动化的视频字幕生成框架Wolf

优惠用于评估交互式编程智能体的基准测试环境AppWorld

优惠 SHIC：用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系

优惠 WalkTheDog：理解和对齐不同形态（如人和狗）的运动数据集

优惠 Bridging the Gap：将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图，进而用于创建高质量的3D头像

优惠三维多模态问题回答技术City-3DQA：用于城市场景理解。这项技术能够帮助智能代理（如自动驾驶汽车、智能助手等）更好地理解它们所处的三维环境

优惠 3D生成框架Cycle3D：将2D图片转换成高质量的3D模型，这个转换过程既保持了图像的纹理细节，又确保了3D模型的多视角一致性

优惠苹果推出全面基准测试MMAU：评估大语言模型作为智能代理在多个领域的能力

优惠开源AI 搜索引擎框架MindSearch （思·索）：模仿人类的思维方式来执行网络信息搜索和整合任务