人工智能

优惠 Google DeepMind开发机器人乒乓球系统:能够与人类选手进行竞技性的乒乓球比赛

  • Google DeepMind开发机器人乒乓球系统:能够与人类选手进行竞技性的乒乓球比赛
    AI
  • 由Google DeepMind开发的机器人乒乓球系统,这个系统能够与人类选手进行竞技性的乒乓球比赛。研究人员开发了第一个通过学习达到业余人类水平的机器人乒乓球选手。这个机器人通过模仿人类选手的动作和策略,能够在真实世界中进行快速、准确的乒乓球比赛。例如,一个中级选手与机器人进行比赛,机器人可能会使用一系列中等难度的策... 阅读全文

    优惠 LG推出大语言模型EXAONE 3.0:经过了“指令调优”,意味着它能够更好地理解和执行人类的指令

  • LG推出大语言模型EXAONE 3.0:经过了“指令调优”,意味着它能够更好地理解和执行人类的指令
    AI
  • LG AI Research团队开发的大语言模型EXAONE 3.0,这个模型特别之处在于它经过了“指令调优”,意味着它能够更好地理解和执行人类的指令。EXAONE 3.0是首个公开的大型语言模型家族中的一员,公开发布的是7.8B(即7.8十亿参数)的版本,目的是为了推动开放的研究和创新。 GitHub:https:/... 阅读全文

    优惠 多模态智能体Optimus-1:能够在像《我的世界》这样的开放世界环境中执行长期任务

  • 多模态智能体Optimus-1:能够在像《我的世界》这样的开放世界环境中执行长期任务
    AI
  • 哈尔滨工业大学和鹏城实验室的研究人员推出多模态智能体“Optimus-1”,它能够在像《我的世界》这样的开放世界环境中执行长期任务。Optimus-1的核心是一个混合多模态记忆模块,这个模块由两个主要部分组成:分层指导知识图谱(HDKG)和抽象多模态经验池(AMEP)。这个智能体的设计灵感来源于人类如何利用长期记忆来完... 阅读全文

    优惠 大规模合成数据集VGGHeads:专门用于3D人头检测、关键点估计和3D头部模型拟合等重要任务

  • 大规模合成数据集VGGHeads:专门用于3D人头检测、关键点估计和3D头部模型拟合等重要任务
    AI
  • 牛津大学的研究人员推出大规模合成数据集VGGHeads,它专门用于3D人头检测、关键点估计和3D头部模型拟合等重要任务。这些任务在面部识别、动画制作、增强现实和医学成像等领域有着广泛的应用。例如,我们需要训练一个计算机视觉系统来识别图片中的人脸,并准确地模拟出人头的三维形状。这通常需要大量的真实人脸图片和相应的三维模型... 阅读全文

    优惠 交互式视频生成模型Puppet-Master:作为一个运动先验来捕捉物体部分级别的动力学

  • 交互式视频生成模型Puppet-Master:作为一个运动先验来捕捉物体部分级别的动力学
    AI
  • 牛津大学的研究人员推出交互式视频生成模型Puppet-Master,它可以作为一个运动先验来捕捉物体部分级别的动力学。简单来说,Puppet-Master能够根据单个图像和一组稀疏的运动轨迹(即拖动操作),合成一段展示逼真物体部分运动的视频。这就像是有一个虚拟的木偶大师,通过几个简单的手势指令,就能够控制视频中物体各部... 阅读全文

    优惠 大规模数据集“SG3D”:为了推动三维场景中任务导向的顺序定位任务的研究而创建

  • 大规模数据集“SG3D”:为了推动三维场景中任务导向的顺序定位任务的研究而创建
    AI
  • 北京通用人工智能研究院 (BIGAI) 、清华大学和北京理工大学的研究人员推出大规模数据集“SG3D”(Sequential Grounding in 3D Scenes),它是为了推动三维场景中任务导向的顺序定位(task-oriented sequential grounding)任务的研究而创建的。这项任务涉及到... 阅读全文

    优惠 LLM-DetectAIve:专门设计用来精细地检测机器生成的文本(MGTs)

  • LLM-DetectAIve:专门设计用来精细地检测机器生成的文本(MGTs)
    AI
  • 这篇论文介绍了一个名为“LLM-DetectAIve”的工具,它专门设计用来精细地检测机器生成的文本(MGTs)。随着大语言模型(LLMs)的普及,人们越来越难以区分文本是人类写的还是机器生成的。这在教育和学术领域尤其令人担忧,因为可能会有不正当使用机器生成文本的情况。论文还提到了这个工具的一些限制,比如它目前只支持英... 阅读全文

    优惠 新型数据集和对比学习合成方法Img-Diff:专注于为多模态大语言模型提升细粒度图像识别能力

  • 新型数据集和对比学习合成方法Img-Diff:专注于为多模态大语言模型提升细粒度图像识别能力
    AI
  • 阿里巴巴和中山大学的研究人员推出新型数据集和对比学习合成方法Img-Diff,它专注于为多模态大语言模型(MLLMs)提升细粒度图像识别能力。这个方法通过分析相似图像之间的物体差异,挑战模型去识别匹配和不同的组成部分。例如,你有两张看起来非常相似的图片,但它们之间有一些细微的差别,比如一张图片中的物体被替换了。Img-... 阅读全文

    优惠 创新系统Sketch2Scene:根据用户的简单草图和文本提示,自动生成交互式的3D游戏场景

  • 创新系统Sketch2Scene:根据用户的简单草图和文本提示,自动生成交互式的3D游戏场景
    AI
  • 腾讯XR视觉实验室和澳大利亚国立大学的研究人员推出创新系统Sketch2Scene,它能够根据用户的简单草图和文本提示,自动生成交互式的3D游戏场景。这就像是给一个会魔法的画家,只需要随手画几笔和简单描述,就能创造出一个栩栩如生的游戏世界。例如,你想要创造一个游戏场景,但你可能不是专业的3D建模师。有了Sketch2S... 阅读全文

    优惠 交互式可视化工具TRANSFORMER EXPLAINER:帮助非专业人士通过GPT-2模型来学习理解Transformer这一文本生成模型

  • 交互式可视化工具TRANSFORMER EXPLAINER:帮助非专业人士通过GPT-2模型来学习理解Transformer这一文本生成模型
    AI
  • TRANSFORMER EXPLAINER是一个交互式可视化工具,它旨在帮助非专业人士通过GPT-2模型来学习理解Transformer这一文本生成模型。Transformer是一种在机器学习领域非常流行的神经网络架构,广泛应用于从文本到视觉的多种任务中。但Transformer的内部工作原理对许多人来说还是一个黑箱,... 阅读全文

    优惠 阿里发布新一代数学模型Qwen2-Math

  • 阿里发布新一代数学模型Qwen2-Math
    AI
  • 阿里通义千问 Qwen2 家族的新成员 Qwen2-Math,以其强大的数学解题能力,为开源语言模型领域带来了新的突破。以下是对 Qwen2-Math 的简介和性能概述,以及其多语言模型开发计划的介绍。 项目主页:https://qwenlm.github.io/zh/blog/qwen2-math GitHub:ht... 阅读全文

    优惠 新型高效Transformer模型AVESFormer:专为实时音视频分割任务而设计

  • 新型高效Transformer模型AVESFormer:专为实时音视频分割任务而设计
    AI
  • 中国科学院大学人工智能学院、中国科学院自动化研究所和中国铁塔股份有限公司的研究人员推出新型高效Transformer模型AVESFormer,它专为实时音视频(Audio-Visual, AV)分割任务而设计。音视频分割是一种多模态任务,目的是在像素级别上区分出视频中与声音源相对应的物体。这项技术在机器人感知、视频监控... 阅读全文