人工智能

优惠 三维物体检测模型UniDet3D:能够从点云数据中识别和定位室内环境中的物体

  • 三维物体检测模型UniDet3D:能够从点云数据中识别和定位室内环境中的物体
    AI
  • 人工智能研究院推出三维物体检测模型UniDet3D,它能够从点云数据中识别和定位室内环境中的物体。这个模型特别适用于机器人和增强现实(AR)领域,因为它可以提供对三维空间中物体的精确理解。总的来说,UniDet3D通过在多个数据集上进行训练,提高了模型对不同室内环境的适应能力,使其能够在各种场景下准确地检测和定位三维物... 阅读全文

    优惠 机器人框架Robot Utility Models(RUMs):训练能够在新环境中零样本部署的机器人策略

  • 机器人框架Robot Utility Models(RUMs):训练能够在新环境中零样本部署的机器人策略
    AI
  • 纽约大学、Hello Robot、Meta的研究人员推出新的机器人框架Robot Utility Models(RUMs),它旨在训练能够在新环境中零样本部署的机器人策略。这些策略能够在没有进一步微调的情况下,直接泛化到新的环境和对象上。总的来说,RUMs通过结合多模态学习和自我批评机制,提高了机器人在新环境中的自主性... 阅读全文

    优惠 新型视觉-语言模型POINTS:通过一些高效且经济的策略来提升模型的性能

  • 新型视觉-语言模型POINTS:通过一些高效且经济的策略来提升模型的性能
    AI
  • 腾讯公司微信 AI 模式识别中心、上海交通大学和南京大学的研究人员推出新型视觉-语言模型POINTS,旨在通过一些高效且经济的策略来提升模型的性能。这个模型专注于处理图像和文本信息,使其在理解和生成与视觉内容相关的语言描述方面更加准确和高效。 论文:https://arxiv.org/abs/2409.04828 例如... 阅读全文

    优惠 基准测试CKnowEdit:通过知识编辑技术纠正和改进大语言模型中的中文知识

  • 基准测试CKnowEdit:通过知识编辑技术纠正和改进大语言模型中的中文知识
    AI
  • 浙江大学和加州大学圣地亚哥分校的研究人员推出基准测试CKnowEdit,旨在通过知识编辑技术纠正和改进大语言模型(LLMs)中的中文知识。这项工作特别关注中文语言和文化领域,因为这些领域在现有的LLMs中常常被误解或处理不当。 数据集:https://huggingface.co/datasets/zjunlp/CKn... 阅读全文

    优惠 Paper Copilot:为研究人员设计的个性化学术助手,基于大语言模型

  • Paper Copilot:为研究人员设计的个性化学术助手,基于大语言模型
    AI
  • 伊利诺伊大学香槟分校、卡内基梅隆大学、卡尔顿学院的研究人员推出一个名为“Paper Copilot”的系统,它是一个为研究人员设计的个性化学术助手,基于大语言模型(LLM)。这个系统的核心目标是帮助科研人员更有效地在海量文献中找到所需信息,并且提供实时更新的研究成果。 Demo:https://huggingface.... 阅读全文

    优惠 新型多模态大语言模型的指令数据演化框架MMEvol

  • 新型多模态大语言模型的指令数据演化框架MMEvol
    AI
  • SIAT、UCAS、阿里巴巴、同济大学和USYD的研究人员推出新型多模态大语言模型(MLLM)的指令数据演化框架MMEvol,这个框架的目的是提高MLLM在处理视觉和语言任务时的能力,通过自动生成更复杂和多样化的图像-文本指令数据。总的来说,MMEvol是一个让电脑通过学习和练习变得更擅长处理图像和文字的工具,它通过自... 阅读全文

    优惠 GST:能够从单张图片中精确重建出三维人体模型

  • GST:能够从单张图片中精确重建出三维人体模型
    AI
  • 牛津大学视觉几何小组推出新技术GST(Gaussian Splatting Transformers),它能够从单张图片中精确重建出三维人体模型。总的来说,GST 通过结合先进的视觉 Transformer 技术和高斯表示方法,提供了一种高效且精确的方式来从二维图像中重建三维人体模型,这项技术对于虚拟现实、增强现实、创... 阅读全文

    优惠 XCoder:提高代码生成模型的性能,特别是通过优化代码指令调优数据的质量

  • XCoder:提高代码生成模型的性能,特别是通过优化代码指令调优数据的质量
    AI
  • 北京邮电大学和美团的研究人员发布论文,论文的主题是关于如何提高代码生成模型的性能,特别是通过优化代码指令调优数据的质量。代码生成模型,也就是那些能够根据人类指令生成代码的人工智能模型,近年来在软件开发领域变得越来越重要。这些模型可以帮助程序员更快地编写代码,减少错误,甚至学习编写他们以前不熟悉的代码。总的来说,这篇论文... 阅读全文

    优惠 最强开源大语言模型?AI初创公司OthersideAI 推出Reflection 70B模型,能够识别推理过程中的错误并进行修正

  • 最强开源大语言模型?AI初创公司OthersideAI 推出Reflection 70B模型,能够识别推理过程中的错误并进行修正
    AI
  • AI初创公司OthersideAI 开源了Reflection 70B模型,号称是世界上最顶级的开源大语言模型,它采用了一种名为反射调优(Reflection-Tuning)的创新技术,使模型能够识别推理过程中的错误并进行修正。Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与... 阅读全文

    优惠 新型文本到三维(Text-to-3D)模型GIMDiffusion:能够根据文本描述生成高质量的三维对象,而且生成速度快,数据需求量小,并且能够有效处理复杂的三维表示

  • 新型文本到三维(Text-to-3D)模型GIMDiffusion:能够根据文本描述生成高质量的三维对象,而且生成速度快,数据需求量小,并且能够有效处理复杂的三维表示
    AI
  • Unity推出新型文本到三维(Text-to-3D)模型GIMDiffusion,这个模型能够根据文本描述生成高质量的三维对象,而且生成速度快,数据需求量小,并且能够有效处理复杂的三维表示。例如,你是一名游戏设计师,需要为即将推出的游戏中设计一个“幻想风格的金属盾牌”。使用GIMDiffusion,你只需输入这个文本描... 阅读全文

    优惠 新型多模态大语言模型mPLUG-DocOwl2:专门设计用于高效地理解高分辨率的多页文档,而无需依赖光学字符识别(OCR)技术

  • 新型多模态大语言模型mPLUG-DocOwl2:专门设计用于高效地理解高分辨率的多页文档,而无需依赖光学字符识别(OCR)技术
    AI
  • 阿里巴巴和人民大学的研究人员推出新型多模态大语言模型mPLUG-DocOwl2,它专门设计用于高效地理解高分辨率的多页文档,而无需依赖光学字符识别(OCR)技术。这个模型通过压缩文档图像来减少处理所需的视觉标记数量,从而提高了理解和分析文档的速度和效率。 GitHub:https://github.com/X-PLUG... 阅读全文

    优惠 新型公式识别评估指标CDM:为了更公平、准确地评估数学公式识别模型的性能

  • 新型公式识别评估指标CDM:为了更公平、准确地评估数学公式识别模型的性能
    AI
  • 上海市人工智能实验室和上海交通大学的研究人员推出新型公式识别评估指标CDM,这个指标的目的是为了更公平、准确地评估数学公式识别模型的性能。例如,你有一个数学公式 (x+y)+z=x+(y+z)(x+y)+z=x+(y+z),并且你使用了一个公式识别模型来识别这个公式。模型可能以不同的LaTeX代码表示这个公式,例如 (... 阅读全文