AI

优惠 物体与地面重建模型ORG:能够从单目图像中同时重建3D物体、估计相机参数,并模拟物体与地面的关系

  • 物体与地面重建模型ORG:能够从单目图像中同时重建3D物体、估计相机参数,并模拟物体与地面的关系
    AI
  • 伊利诺伊大学厄巴纳-香槟分校、普渡大学和Adob​​e的研究人员推出ORG(Object Reconstruction with Ground,物体与地面重建)的模型,它能够从单目图像中同时重建3D物体、估计相机参数,并模拟物体与地面的关系。这项技术为3D视觉和图像处理领域提供了一种新的工具,使得从单张图片中提取3D信... 阅读全文

    优惠 计算机视觉模型VSSD:通过改进状态空间模型(SSMs)来提高处理长序列数据的能力,同时保持了对全局信息的接收能力

  • 计算机视觉模型VSSD:通过改进状态空间模型(SSMs)来提高处理长序列数据的能力,同时保持了对全局信息的接收能力
    AI
  • 香港城市大学、天津大学和悉尼大学的研究人员推出新型的计算机视觉模型VSSD,它通过改进状态空间模型(SSMs)来提高处理长序列数据的能力,同时保持了对全局信息的接收能力。这项技术为计算机视觉领域提供了一种新的高效方法,特别是在需要处理大量视觉数据和长序列信息的场景中。 例如,你有一个包含城市街景的图像数据集,需要自动地... 阅读全文

    优惠 自动化的视频字幕生成框架Wolf

  • 自动化的视频字幕生成框架Wolf
    AI
  • 英伟达、加州大学伯克利分校、麻省理工学院、德州奥斯汀分校、多伦多大学和斯坦福大学的研究人员推出一个用于视频字幕生成的世界摘要框架Wolf,Wolf是一个自动化的视频字幕生成框架,它采用了一种专家混合的方法,利用视觉语言模型(VLMs)的互补优势,通过结合图像和视频模型,捕获不同级别的信息,并高效地进行摘要。这项技术为视... 阅读全文

    优惠 用于评估交互式编程智能体的基准测试环境AppWorld

  • 用于评估交互式编程智能体的基准测试环境AppWorld
    AI
  • 石溪大学、艾伦人工智能研究所和萨尔大学的研究人员推出一个名为AppWorld的框架,这是一个用于评估交互式编程智能体的基准测试环境。AppWorld框架包括一个AppWorld Engine和一个AppWorld Benchmark。这项技术为开发能够处理复杂任务的智能体提供了一个强大的测试平台,推动了交互式编程智能体... 阅读全文

    优惠 SHIC:用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系

  • SHIC:用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系
    AI
  • 牛津大学视觉几何组的研究人员推出新技术SHIC,用于在没有关键点标注的监督下学习图像与3D模板之间的对应关系。简单来说,这项技术可以自动识别图片中物体的每个像素点,并将其与3D模型中的相应点对应起来,而不需要人工去标记这些对应点。这项技术为自动理解图像内容、3D建模和动画制作等领域提供了强大的工具,使得从图像中自动提取... 阅读全文

    优惠 WalkTheDog:理解和对齐不同形态(如人和狗)的运动数据集

  • WalkTheDog:理解和对齐不同形态(如人和狗)的运动数据集
    AI
  • 苏黎世联邦理工学院和Meta Reality Labs的研究人员推出WalkTheDog,这种新方法来理解和对齐不同形态(如人和狗)的运动数据集。这个方法的核心是“相位流形(Phase Manifolds)”,它能够将具有不同骨骼结构的角色的运动数据映射到一个共享的空间中,而不需要任何监督信号或骨骼结构的对应关系。这项... 阅读全文

    优惠 Bridging the Gap:将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图,进而用于创建高质量的3D头像

  • Bridging the Gap:将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图,进而用于创建高质量的3D头像
    AI
  • Captions Research、Meta Reality Labs和石溪大学的研究人员推出新技术Bridging the Gap,它能够将用手机单目拍摄的低分辨率纹理图转换为具有工作室级光照效果的高分辨率纹理图,进而用于创建高质量的3D头像。例如,你想在虚拟现实游戏中创建一个与自己相似的角色。使用这项技术,你只需用... 阅读全文

    优惠 三维多模态问题回答技术City-3DQA:用于城市场景理解。这项技术能够帮助智能代理(如自动驾驶汽车、智能助手等)更好地理解它们所处的三维环境

  • 三维多模态问题回答技术City-3DQA:用于城市场景理解。这项技术能够帮助智能代理(如自动驾驶汽车、智能助手等)更好地理解它们所处的三维环境
    AI
  • 香港科技大学(广州)、浙江大学、广州大学、哈尔滨工业大学的研究人员推出一种新型的三维多模态问题回答(3D MQA)技术,用于城市场景理解。这项技术能够帮助智能代理(如自动驾驶汽车、智能助手等)更好地理解它们所处的三维环境,特别是城市级别的场景。论文还提到了他们的方法在不同设置下达到了63.94%和63.76%的准确率,... 阅读全文

    优惠 3D生成框架Cycle3D:将2D图片转换成高质量的3D模型,这个转换过程既保持了图像的纹理细节,又确保了3D模型的多视角一致性

  • 3D生成框架Cycle3D:将2D图片转换成高质量的3D模型,这个转换过程既保持了图像的纹理细节,又确保了3D模型的多视角一致性
    AI
  • 北京大学、鹏程实验室和新加坡国立大学的研究人员推出新型图像到3D生成框架Cycle3D,Cycle3D的目标是将2D图片转换成高质量的3D模型,这个转换过程既保持了图像的纹理细节,又确保了3D模型的多视角一致性。例如,你是一名游戏开发者,需要快速生成一个3D角色模型。使用Cycle3D,你可以上传一张角色的概念图,Cy... 阅读全文

    优惠 苹果推出全面基准测试MMAU:评估大语言模型作为智能代理在多个领域的能力

  • 苹果推出全面基准测试MMAU:评估大语言模型作为智能代理在多个领域的能力
    AI
  • 苹果推出全面基准测试MMAU(Massive Multitask Agent Understanding),它用于评估大语言模型(LLMs)作为智能代理在多个领域的能力。MMAU通过一系列精心设计的任务,来测试和分析这些模型在理解、推理、规划、解决问题和自我修正等关键能力上的表现。 例如,我们想测试一个语言模型在解决数... 阅读全文

    优惠 开源AI 搜索引擎框架MindSearch (思·索):模仿人类的思维方式来执行网络信息搜索和整合任务

  • 开源AI 搜索引擎框架MindSearch (思·索):模仿人类的思维方式来执行网络信息搜索和整合任务
    AI
  • MindSearch (思·索)是一个开源的 AI 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。您可以轻松部署它来构建您自己的搜索引擎,可以使用闭源 LLM(如 GPT、Claude)或开源 LLM(如 InternLM2.5-7b-chat)。其拥有以下特性: 🤔 任何想知道的问题:Mind... 阅读全文

    优惠 新型神经网络结构MoNE:用于提高视觉处理任务的效率,尤其是在处理图像和视频时

  • 新型神经网络结构MoNE:用于提高视觉处理任务的效率,尤其是在处理图像和视频时
    AI
  • Google DeepMind和华盛顿大学的研究人员推出新型神经网络结构“Mixture of Nested Experts”(MoNE),它主要用于提高视觉处理任务的效率,尤其是在处理图像和视频时。MoNE的核心思想是,不是所有视觉信息都需要同等强度的计算处理,通过智能地分配计算资源,可以在保持准确性的同时减少计算量... 阅读全文