Google DeepMind

优惠 Google DeepMind开发机器人乒乓球系统:能够与人类选手进行竞技性的乒乓球比赛

  • Google DeepMind开发机器人乒乓球系统:能够与人类选手进行竞技性的乒乓球比赛
    AI
  • 由Google DeepMind开发的机器人乒乓球系统,这个系统能够与人类选手进行竞技性的乒乓球比赛。研究人员开发了第一个通过学习达到业余人类水平的机器人乒乓球选手。这个机器人通过模仿人类选手的动作和策略,能够在真实世界中进行快速、准确的乒乓球比赛。例如,一个中级选手与机器人进行比赛,机器人可能会使用一系列中等难度的策... 阅读全文

    优惠 Google DeepMind推出新型策略WARP:用于通过人类反馈进行强化学习(RLHF)以对大语言模型进行对齐

  • Google DeepMind推出新型策略WARP:用于通过人类反馈进行强化学习(RLHF)以对大语言模型进行对齐
    AI
  • Google DeepMind推出新型策略WARP(Weight Averaged Rewarded Policies),用于通过人类反馈进行强化学习(RLHF)以对大型语言模型(LLMs)进行对齐。这种策略的目的是在使用人类偏好训练的奖励模型来优化语言模型时,平衡模型性能和保持预训练知识。论文通过一系列实验验证了WA... 阅读全文

    优惠 Google DeepMind推出结合了Transformer和神经算法推理器的混合模型TransNAR

  • Google DeepMind推出结合了Transformer和神经算法推理器的混合模型TransNAR
    AI
  • Google DeepMind推出一种结合了Transformer和神经算法推理器(Neural Algorithmic Reasoners,简称NARs)的混合模型,称为TransNAR。这种模型旨在提升机器学习在处理自然语言理解(NLU)任务时的算法推理能力。通过在CLRS-Text基准测试上的实验表明,Trans... 阅读全文

    优惠 Google DeepMind推出新型基准测试NATURAL PLAN:专门用来评估大语言模型在处理自然语言描述的计划任务方面的能力

  • Google DeepMind推出新型基准测试NATURAL PLAN:专门用来评估大语言模型在处理自然语言描述的计划任务方面的能力
    AI
  • Google DeepMind推出新型基准测试NATURAL PLAN,它专门用来评估大语言模型(LLMs)在处理自然语言描述的计划任务方面的能力。这个基准测试包含三个关键任务:旅行规划、会议规划和日历安排。论文的核心思想是,通过提供像Google Flights、Google Maps和Google Calendar... 阅读全文

    优惠 Google DeepMind推出新型多塔解码器架构Zipper:将多个在不同模态上独立预训练的生成模型融合在一起,创造出比单独模型更强大的多模态生成能力

  • Google DeepMind推出新型多塔解码器架构Zipper:将多个在不同模态上独立预训练的生成模型融合在一起,创造出比单独模型更强大的多模态生成能力
    AI
  • Google DeepMind推出新型多塔解码器架构Zipper,它能够将多个在不同模态上独立预训练的生成模型融合在一起,创造出比单独模型更强大的多模态生成能力。简单来说,Zipper就像一个多才多艺的艺术家,能够把不同的艺术形式(比如语言、声音和图像)融合在一起,创作出新的艺术作品。论文还提到了Zipper的一些限制... 阅读全文

    优惠 Google DeepMind推出新强化学习方法DRO:用于大语言模型(LLM)的对齐

  • Google DeepMind推出新强化学习方法DRO:用于大语言模型(LLM)的对齐
    AI
  • Google DeepMind推出一种新的强化学习方法DRO(Direct Reward Optimisation,直接奖励优化),用于大语言模型(LLM)的对齐。这种方法旨在改善大型语言模型的行为,使其更好地符合人类的偏好。这很重要,因为一个好的语言模型不仅需要智能,还需要能够生成对用户有帮助且安全的内容。 主要功能... 阅读全文