AI

优惠 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计

  • 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计
    AI
  • 深度求索推出开源语言模型DeepSeek-Prover-V1.5,它专门为在Lean 4环境中进行定理证明而设计。Lean 4是一种用于数学和逻辑推理的正式证明助手。想象一下,你有一道非常复杂的数学证明题,需要一步步严格推导,DeepSeek-Prover-V1.5就像一个超级助手,可以帮助你更快更准确地完成这个过程。... 阅读全文

    优惠 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本

  • 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本
    AI
  • 阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。 作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式: 语音聊天:用户可以自由地与 Q... 阅读全文

    优惠 sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法

  • sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法
    AI
  • 这篇论文的主题是关于一种快速从动画图形中分解精灵(sprites)的方法。精灵在这里指的是构成动画视频的基本元素或图层,比如在社交媒体帖子或广告中常见的动画元素。论文还构建了一个新的数据集Crello Animation,用于评估动画图形分解的质量,并定义了基准指标来衡量分解精灵的质量。实验表明,这种方法在质量和效率的... 阅读全文

    优惠 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)

  • 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)
    AI
  • 华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++,它专注于实例感知的开放领域视觉叙事(Visual Storytelling)。简单来说,Openstory++旨在训练和评估人工智能模型,使其能够根据... 阅读全文

    优惠 Google DeepMind开发机器人乒乓球系统:能够与人类选手进行竞技性的乒乓球比赛

  • Google DeepMind开发机器人乒乓球系统:能够与人类选手进行竞技性的乒乓球比赛
    AI
  • 由Google DeepMind开发的机器人乒乓球系统,这个系统能够与人类选手进行竞技性的乒乓球比赛。研究人员开发了第一个通过学习达到业余人类水平的机器人乒乓球选手。这个机器人通过模仿人类选手的动作和策略,能够在真实世界中进行快速、准确的乒乓球比赛。例如,一个中级选手与机器人进行比赛,机器人可能会使用一系列中等难度的策... 阅读全文

    优惠 LG推出大语言模型EXAONE 3.0:经过了“指令调优”,意味着它能够更好地理解和执行人类的指令

  • LG推出大语言模型EXAONE 3.0:经过了“指令调优”,意味着它能够更好地理解和执行人类的指令
    AI
  • LG AI Research团队开发的大语言模型EXAONE 3.0,这个模型特别之处在于它经过了“指令调优”,意味着它能够更好地理解和执行人类的指令。EXAONE 3.0是首个公开的大型语言模型家族中的一员,公开发布的是7.8B(即7.8十亿参数)的版本,目的是为了推动开放的研究和创新。 GitHub:https:/... 阅读全文

    优惠 多模态智能体Optimus-1:能够在像《我的世界》这样的开放世界环境中执行长期任务

  • 多模态智能体Optimus-1:能够在像《我的世界》这样的开放世界环境中执行长期任务
    AI
  • 哈尔滨工业大学和鹏城实验室的研究人员推出多模态智能体“Optimus-1”,它能够在像《我的世界》这样的开放世界环境中执行长期任务。Optimus-1的核心是一个混合多模态记忆模块,这个模块由两个主要部分组成:分层指导知识图谱(HDKG)和抽象多模态经验池(AMEP)。这个智能体的设计灵感来源于人类如何利用长期记忆来完... 阅读全文

    优惠 大规模合成数据集VGGHeads:专门用于3D人头检测、关键点估计和3D头部模型拟合等重要任务

  • 大规模合成数据集VGGHeads:专门用于3D人头检测、关键点估计和3D头部模型拟合等重要任务
    AI
  • 牛津大学的研究人员推出大规模合成数据集VGGHeads,它专门用于3D人头检测、关键点估计和3D头部模型拟合等重要任务。这些任务在面部识别、动画制作、增强现实和医学成像等领域有着广泛的应用。例如,我们需要训练一个计算机视觉系统来识别图片中的人脸,并准确地模拟出人头的三维形状。这通常需要大量的真实人脸图片和相应的三维模型... 阅读全文

    优惠 交互式视频生成模型Puppet-Master:作为一个运动先验来捕捉物体部分级别的动力学

  • 交互式视频生成模型Puppet-Master:作为一个运动先验来捕捉物体部分级别的动力学
    AI
  • 牛津大学的研究人员推出交互式视频生成模型Puppet-Master,它可以作为一个运动先验来捕捉物体部分级别的动力学。简单来说,Puppet-Master能够根据单个图像和一组稀疏的运动轨迹(即拖动操作),合成一段展示逼真物体部分运动的视频。这就像是有一个虚拟的木偶大师,通过几个简单的手势指令,就能够控制视频中物体各部... 阅读全文

    优惠 大规模数据集“SG3D”:为了推动三维场景中任务导向的顺序定位任务的研究而创建

  • 大规模数据集“SG3D”:为了推动三维场景中任务导向的顺序定位任务的研究而创建
    AI
  • 北京通用人工智能研究院 (BIGAI) 、清华大学和北京理工大学的研究人员推出大规模数据集“SG3D”(Sequential Grounding in 3D Scenes),它是为了推动三维场景中任务导向的顺序定位(task-oriented sequential grounding)任务的研究而创建的。这项任务涉及到... 阅读全文

    优惠 LLM-DetectAIve:专门设计用来精细地检测机器生成的文本(MGTs)

  • LLM-DetectAIve:专门设计用来精细地检测机器生成的文本(MGTs)
    AI
  • 这篇论文介绍了一个名为“LLM-DetectAIve”的工具,它专门设计用来精细地检测机器生成的文本(MGTs)。随着大语言模型(LLMs)的普及,人们越来越难以区分文本是人类写的还是机器生成的。这在教育和学术领域尤其令人担忧,因为可能会有不正当使用机器生成文本的情况。论文还提到了这个工具的一些限制,比如它目前只支持英... 阅读全文

    优惠 新型数据集和对比学习合成方法Img-Diff:专注于为多模态大语言模型提升细粒度图像识别能力

  • 新型数据集和对比学习合成方法Img-Diff:专注于为多模态大语言模型提升细粒度图像识别能力
    AI
  • 阿里巴巴和中山大学的研究人员推出新型数据集和对比学习合成方法Img-Diff,它专注于为多模态大语言模型(MLLMs)提升细粒度图像识别能力。这个方法通过分析相似图像之间的物体差异,挑战模型去识别匹配和不同的组成部分。例如,你有两张看起来非常相似的图片,但它们之间有一些细微的差别,比如一张图片中的物体被替换了。Img-... 阅读全文