大语言模型

优惠 大型语言视觉模型Meteor:通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力

  • 大型语言视觉模型Meteor:通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力
    AI
  • 韩国科学院推出新型大型语言和视觉模型Meteor,它通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力。简而言之,Meteor是一个能够理解和回答各种视觉和语言问题的智能系统,它通过有效的理由遍历和多模态信息整合,在不需要增加模型复杂度的情况下,提高了问题回答的准确... 阅读全文

    优惠 新型人工智能模型iVideoGPT:可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策

  • 新型人工智能模型iVideoGPT:可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策
    AI
  • 清华大学北科院软件学院、清华大学致力学院、华为诺亚方舟实验室和天津大学智能与计算学院的研究人员推出新型人工智能模型iVideoGPT,它是一个可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策。例如,你有一台能够预测未来并帮你做出更好选择的神奇相机,iVideoGPT就有点像这样,但它是为机器人和计算机程... 阅读全文

    优惠 关于自动化数据整理在自监督学习中的应用

  • 关于自动化数据整理在自监督学习中的应用
    AI
  • Meta、INRIA、巴黎萨克雷大学和谷歌的研究人员发布论文,论文的主题是关于自动化数据整理(Automatic Data Curation)在自监督学习(Self-Supervised Learning, SSL)中的应用。自监督学习是一种无需人工标注数据的学习方法,它通过学习数据本身的结构和模式来训练模型,这在机器... 阅读全文

    优惠 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能

  • 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能
    AI
  • 香港大学、 香港科技大学、中国科技大学、清华大学、 爱丁堡大学和MIT-IBM Watson AI 实验室的研究人员发布论文,论文的主题是探讨如何高效地预训练大语言模型(LLMs)。大语言模型(LLMs)因其规模庞大,在预训练阶段需要消耗大量的计算资源,这不仅成本高昂,而且对环境也有一定影响。为了解决这个问题,研究者们... 阅读全文

    优惠 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划

  • 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划
    AI
  • Meta研究人员推出一种新的学习率调整方法“Schedule-Free”(无计划的)学习。在机器学习中,尤其是深度学习,学习率是一个非常重要的超参数,它决定了模型参数更新的幅度。正确的学习率调整策略对于模型能否快速收敛到一个好的解至关重要。例如,你要训练一个能够识别图片中物体的深度学习模型。在训练过程中,你需要不断调整... 阅读全文

    优惠 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力

  • 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力
    AI
  • 清华大学、悉尼大学、百度、亚马逊网络服务和香港中文大学的研究人员推出视觉-语言连接器Dense Connector,提升多模态大语言模型(MLLMs)中视觉编码器的潜力。MLLMs是一类能够同时处理文本和视觉信息的人工智能模型,它们在理解和生成文本、以及视觉识别方面表现出色。然而,目前的研究和开发主要集中在语言能力的提... 阅读全文

    优惠 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力

  • 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力
    AI
  • 深度求索推出DeepSeek-Prover,提升大语言模型(LLMs)在数学定理证明方面的能力。具体来说,研究者们开发了一个名为DeepSeek-Prover的系统,它能够通过大规模合成数据来增强定理证明的能力。通过这种方式,DeepSeek-Prover不仅能够提升数学证明的自动化水平,还能够通过提供大量的合成数据来... 阅读全文

    优惠 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征

  • 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征
    AI
  • 麻省理工的研究人员发布论文,论文的主题是探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征。我们可以通过一个简单的比喻来理解这个问题:想象一下,你有一张城市的地图,这张地图上的所有信息都是通过点(代表城市的不同部分)在一条直线上的排列来表示的。这个排列就像是语言模型中的一维特征,每个点代表一个概念... 阅读全文

    优惠 新型神经网络训练方法——热力学自然梯度下降(TNGD)

  • 新型神经网络训练方法——热力学自然梯度下降(TNGD)
    AI
  • Normal Computing推出一种新型的神经网络训练方法——热力学自然梯度下降(Thermodynamic Natural Gradient Descent,简称TNGD)。这种方法试图解决大规模神经网络训练中的一个主要问题:计算效率。通常,第二梯度方法(考虑了损失函数曲面的曲率信息)在理论上具有更好的收敛性,但... 阅读全文

    优惠 分布式推测推理DSI:加速大语言模型的推理过程

  • 分布式推测推理DSI:加速大语言模型的推理过程
    AI
  • 魏茨曼科学研究所、英特尔实验室和麻省理工学院的研究人员发布论文,论文的主题是关于如何加速大语言模型(LLMs)的推理过程。在AI领域,尤其是在需要实时应用的场景中,比如股票交易算法或自动驾驶车辆中,快速准确地进行语言模型推理是一个重要挑战。这篇论文介绍了一种新颖的分布式推理算法——分布式推测推理(Distributed... 阅读全文

    优惠 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解

  • 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解
    AI
  • 南京大学研究人员推出新型多模态大语言模型AlignGPT,它特别关注于提升模型对视觉和语言信息之间对齐能力的理解。简单来说,AlignGPT就像是一个超级学霸,它不仅能看懂图片,还能理解文字,并且能把这两者关联起来,给出非常聪明的回答。例如,你给AlignGPT一张蛋糕的图片,并问它“蛋糕上有多少颗草莓?”,Align... 阅读全文

    优惠 基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF

  • 基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF
    AI
  • OpenLLMAI 团队推出基于 Ray、DeepSpeed 和 HF Transformers 构建的高性能 RLHF 框架OpenRLHF,它是一个用于训练大语言模型(LLM)的高效、可扩展且高性能的强化学习从人类反馈(RLHF)框架。RLHF是一种通过人类反馈来指导机器学习模型的训练方法,它在大型语言模型的训练中... 阅读全文