大语言模型

优惠 transformers模型是否能够学习隐式推理,即在没有明确指导的情况下对知识进行推理

  • transformers模型是否能够学习隐式推理,即在没有明确指导的情况下对知识进行推理
    AI
  • 俄亥俄州立大学 和卡内基梅隆大学的研究人员发布论文探讨了transformers,这是一种在自然语言处理(NLP)领域广泛使用的模型,是否能够学习隐式推理(implicit reasoning),即在没有明确指导的情况下对知识进行推理。隐式推理是一种能力,它允许模型在面对新的、未见过的情况时,能够运用已有的知识来做出合... 阅读全文

    优惠 数据混合策略BIMIX:旨在提高语言模型预训练的效率

  • 数据混合策略BIMIX:旨在提高语言模型预训练的效率
    AI
  • 阿里推出一种新型的数据混合策略BIMIX(Bivariate Scaling Law for Language Model Pretraining),旨在提高语言模型预训练的效率。BIMIX的核心思想是通过精确地量化数据量和混合比例对模型性能的影响,来优化数据混合,从而提升训练效率和模型的泛化能力。 主要功能: 数据混... 阅读全文

    优惠 服务于23种语言!Cohere推出多语言语言模型家族Aya 23

  • 服务于23种语言!Cohere推出多语言语言模型家族Aya 23
    AI
  • Cohere推出多语言语言模型家族Aya 23,Aya 23基于Aya模型的最新发布,并结合了最近发布的Aya集合,旨在创建一个强大的多语言大型语言模型,服务于23种语言,将最先进的语言建模能力扩展到全球大约一半的人口。与之前的Aya 101模型涵盖101种语言不同,Aya 23是一次关于深度与广度的实验,探索在预训练... 阅读全文

    优惠 苹果推出去噪语言模型DLM:用于提高自动语音识别(ASR)系统性能的新技术

  • 苹果推出去噪语言模型DLM:用于提高自动语音识别(ASR)系统性能的新技术
    AI
  • 苹果推出去噪语言模型DLM(Denoising Language Model),用于提高自动语音识别(ASR)系统性能的新技术。DLM的核心思想是,通过训练一个模型来纠正ASR系统产生的错误,而不是仅仅重新排列ASR系统已经生成的假设(这是传统语言模型LM的做法)。 主要功能: 错误纠正:DLM专门设计用来修正ASR系... 阅读全文

    优惠 大型语言视觉模型Meteor:通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力

  • 大型语言视觉模型Meteor:通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力
    AI
  • 韩国科学院推出新型大型语言和视觉模型Meteor,它通过一种新颖的“理由遍历”(traversal of rationale)方法来增强理解和回答问题的能力。简而言之,Meteor是一个能够理解和回答各种视觉和语言问题的智能系统,它通过有效的理由遍历和多模态信息整合,在不需要增加模型复杂度的情况下,提高了问题回答的准确... 阅读全文

    优惠 新型人工智能模型iVideoGPT:可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策

  • 新型人工智能模型iVideoGPT:可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策
    AI
  • 清华大学北科院软件学院、清华大学致力学院、华为诺亚方舟实验室和天津大学智能与计算学院的研究人员推出新型人工智能模型iVideoGPT,它是一个可扩展的世界模型,能够模拟环境并帮助智能体(比如机器人)进行决策。例如,你有一台能够预测未来并帮你做出更好选择的神奇相机,iVideoGPT就有点像这样,但它是为机器人和计算机程... 阅读全文

    优惠 关于自动化数据整理在自监督学习中的应用

  • 关于自动化数据整理在自监督学习中的应用
    AI
  • Meta、INRIA、巴黎萨克雷大学和谷歌的研究人员发布论文,论文的主题是关于自动化数据整理(Automatic Data Curation)在自监督学习(Self-Supervised Learning, SSL)中的应用。自监督学习是一种无需人工标注数据的学习方法,它通过学习数据本身的结构和模式来训练模型,这在机器... 阅读全文

    优惠 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能

  • 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能
    AI
  • 香港大学、 香港科技大学、中国科技大学、清华大学、 爱丁堡大学和MIT-IBM Watson AI 实验室的研究人员发布论文,论文的主题是探讨如何高效地预训练大语言模型(LLMs)。大语言模型(LLMs)因其规模庞大,在预训练阶段需要消耗大量的计算资源,这不仅成本高昂,而且对环境也有一定影响。为了解决这个问题,研究者们... 阅读全文

    优惠 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划

  • 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划
    AI
  • Meta研究人员推出一种新的学习率调整方法“Schedule-Free”(无计划的)学习。在机器学习中,尤其是深度学习,学习率是一个非常重要的超参数,它决定了模型参数更新的幅度。正确的学习率调整策略对于模型能否快速收敛到一个好的解至关重要。例如,你要训练一个能够识别图片中物体的深度学习模型。在训练过程中,你需要不断调整... 阅读全文

    优惠 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力

  • 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力
    AI
  • 清华大学、悉尼大学、百度、亚马逊网络服务和香港中文大学的研究人员推出视觉-语言连接器Dense Connector,提升多模态大语言模型(MLLMs)中视觉编码器的潜力。MLLMs是一类能够同时处理文本和视觉信息的人工智能模型,它们在理解和生成文本、以及视觉识别方面表现出色。然而,目前的研究和开发主要集中在语言能力的提... 阅读全文

    优惠 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力

  • 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力
    AI
  • 深度求索推出DeepSeek-Prover,提升大语言模型(LLMs)在数学定理证明方面的能力。具体来说,研究者们开发了一个名为DeepSeek-Prover的系统,它能够通过大规模合成数据来增强定理证明的能力。通过这种方式,DeepSeek-Prover不仅能够提升数学证明的自动化水平,还能够通过提供大量的合成数据来... 阅读全文

    优惠 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征

  • 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征
    AI
  • 麻省理工的研究人员发布论文,论文的主题是探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征。我们可以通过一个简单的比喻来理解这个问题:想象一下,你有一张城市的地图,这张地图上的所有信息都是通过点(代表城市的不同部分)在一条直线上的排列来表示的。这个排列就像是语言模型中的一维特征,每个点代表一个概念... 阅读全文