大语言模型

优惠 LoRA Land:用于高效微调大语言模型

  • LoRA Land:用于高效微调大语言模型
    AI
  • 这篇论文的主题是关于一种名为LoRA(Low Rank Adaptation)的方法,用于高效微调(Parameter Efficient Fine-Tuning,简称PEFT)大语言模型。LoRA通过减少可训练参数的数量和内存使用,同时保持与全参数微调相当的性能,从而使得大型语言模型在特定任务上的表现得到提升。 通熟... 阅读全文

    优惠 WILDCHAT数据集:包含了100万用户与ChatGPT聊天机器人的互动记录,这些记录总共包含了超过250万个交互回合

  • WILDCHAT数据集:包含了100万用户与ChatGPT聊天机器人的互动记录,这些记录总共包含了超过250万个交互回合
    AI
  • 康奈尔大学、艾伦人工智能研究所和南加州大学华盛顿大学推出WILDCHAT数据集,它包含了100万用户与ChatGPT聊天机器人的互动记录,这些记录总共包含了超过250万个交互回合。这个数据集的创建是为了更好地理解用户如何实际使用聊天机器人,并且提供了一个公开的资源,让研究人员可以研究和改进聊天机器人的行为。 通熟易懂的... 阅读全文

    优惠 微软发布自动化音频描述生成系统LLM-AD

  • 微软发布自动化音频描述生成系统LLM-AD
    AI
  • 微软发布自动化音频描述(Audio Description,简称AD)生成系统LLM-AD,音频描述是一种为视频内容添加的旁白,用以描述视频中的视觉元素,这对于视觉障碍人士来说尤其重要,因为它帮助他们更好地理解和享受视频内容。通过这种方式,LLM-AD系统能够自动化地生成音频描述,提高视频内容的可访问性,并为视觉障碍人... 阅读全文

    优惠 开源语言模型PROMETHEUS 2,它专门用于评估其他语言模型的输出质量

  • 开源语言模型PROMETHEUS 2,它专门用于评估其他语言模型的输出质量
    AI
  • KAIST AI、LG AI Research、卡内基梅隆大学、MIT、艾伦人工智能研究所和伊利诺伊大学芝加哥分校的研究人员推出开源语言模型PROMETHEUS 2,它专门用于评估其他语言模型的输出质量。在开发这个模型的过程中,研究人员注意到现有的开源评估模型存在一些关键的不足,比如它们的评分与人类给出的评分差异较大,... 阅读全文

    优惠 英伟达推出NeMo-Aligner:用于调整大语言模型以符合人类价值观和偏好的高效工具

  • 英伟达推出NeMo-Aligner:用于调整大语言模型以符合人类价值观和偏好的高效工具
    AI
  • 英伟达推出NeMo-Aligner,它是一个用于调整大语言模型(LLMs)以符合人类价值观和偏好的高效工具。这个工具的目的是为了让这些语言模型在实际应用中更加有用和安全。例如,我们有一个非常聪明的电脑程序,它可以写文章、回答问题甚至创作诗歌。但是,如果我们想要这个程序在写作时避免使用不礼貌的语言,或者确保它提供的信息总... 阅读全文

    优惠 Meta推出FLAME:提高大语言模型在遵循自然语言指令时的事实准确性

  • Meta推出FLAME:提高大语言模型在遵循自然语言指令时的事实准确性
    AI
  • 来自滑铁卢大学、卡内基梅隆大学和Meta的研究人员推出FLAME,提高大语言模型(LLMs)在遵循自然语言指令时的事实准确性。大语言模型(比如常见的聊天机器人或者智能助手)在被训练去更好地遵循指令时,有时会生成一些错误的事实信息,这就像是它们在“幻想”或“虚构”一些不存在的事情。这篇论文研究了如何改进这一过程,使得这些... 阅读全文

    优惠 开放平台LEGENT:开发能够物理交互或在模拟环境中互动的“体现智能”(embodied intelligence)代理

  • 开放平台LEGENT:开发能够物理交互或在模拟环境中互动的“体现智能”(embodied intelligence)代理
    AI
  • 清华大学和中南大学的研究人员推出开放平台LEGENT,它旨在开发能够物理交互或在模拟环境中互动的“体现智能”(embodied intelligence)代理。这些代理能够理解并生成类似人类的文本,并执行真实图像中的任务。尽管大语言模型(LLMs)和大型多模态模型(LMMs)在文本和图像理解方面取得了显著进展,但将它们... 阅读全文

    优惠 Cohere推出PoLL:如何更有效地评估大语言模型的生成质量

  • Cohere推出PoLL:如何更有效地评估大语言模型的生成质量
    AI
  • Cohere发布论文,这篇论文的主题是关于如何更有效地评估大语言模型(LLMs)的生成质量。随着这些模型变得越来越先进,准确评估它们的性能也变得越来越具有挑战性。传统的评估方法,比如使用单一的大型模型(比如GPT-4)作为评判,不仅成本高昂,而且可能会引入模型内部的偏见。为了解决这个问题,研究者们提出了一种新的方法,即... 阅读全文

    优惠 华为方舟实验室推出新型自我推测解码框架Kangaroo:加速大语言模型的推理过程,同时保持一致的采样分布

  • 华为方舟实验室推出新型自我推测解码框架Kangaroo:加速大语言模型的推理过程,同时保持一致的采样分布
    AI
  • 华为方舟实验室推出新型自我推测解码框架Kangaroo,它旨在加速大语言模型(LLMs)的推理过程,同时保持一致的采样分布。在自然语言处理领域,大型语言模型通常需要逐步生成文本序列,这个过程称为自回归解码,它计算成本高且速度慢。Kangaroo通过自我推测解码来解决这个问题,它使用一个固定的浅层子网络作为自我草稿模型,... 阅读全文

    优惠 视觉-语言数据集DOCCI:旨在提高文本到图像(T2I)和图像到文本(I2T)研究的质量和深度,通过提供详细的人类标注的英文描述来增强模型学习的能力

  • 视觉-语言数据集DOCCI:旨在提高文本到图像(T2I)和图像到文本(I2T)研究的质量和深度,通过提供详细的人类标注的英文描述来增强模型学习的能力
    AI
  • 谷歌、普林斯顿大学和北卡罗来纳大学教堂山分校的研究人员推出新的视觉-语言数据集,名为“DOCCI”(Descriptions of Connected and Contrasting Images)。这个数据集旨在提高文本到图像(T2I)和图像到文本(I2T)研究的质量和深度,通过提供详细的人类标注的英文描述来增强模型... 阅读全文

    优惠 大语言模型在小学数学问题上的表现

  • 大语言模型在小学数学问题上的表现
    AI
  • Scale AI发布论文,论文的主题是关于大语言模型(Large Language Models,简称LLMs)在小学数学问题上的表现。研究人员们对这些模型进行了仔细的考察,特别是它们在解决数学问题时是否真正具备推理能力,还是仅仅因为训练数据中包含了与测试题目过于相似的问题,导致模型只是简单地“记住”了答案。 例如,我... 阅读全文

    优惠 对Llama-3进行模型编辑的实证研究

  • 对Llama-3进行模型编辑的实证研究
    AI
  • 加州大学伯克利分校的研究人员发布关于论文,这篇论文的主题是对大语言模型(LLMs)进行模型编辑的实证研究,特别是针对最新的大型语言模型Llama-3。研究的核心问题是探讨在对模型进行编辑时,是否更大的编辑批量(batch size)总是能带来更好的效果。实验结果表明,对于Llama-3模型,当进行4096次编辑时,使用... 阅读全文