大语言模型

优惠 大语言模型中实现“忘却”(unlearning)的能力,即从模型中移除特定概念或信息

  • 大语言模型中实现“忘却”(unlearning)的能力,即从模型中移除特定概念或信息
    AI
  • 华南理工大学、多伦多大学、巴伊兰大学、中国国际数字经济学院 (IDEA) 和特拉维夫大学的研究人员发布论文,论文的主题是探讨在大语言模型(LLMs)中实现“忘却”(unlearning)的能力,即从模型中移除特定概念或信息。这项研究非常重要,因为它有助于减轻模型可能产生的不良影响,例如生成有害、私密或错误的信息。 主要... 阅读全文

    优惠 自监督语音模型的接口设计

  • 自监督语音模型的接口设计
    AI
  • 美国德克萨斯大学奥斯汀分校计算机科学系的研究人员发布论文,论文的主题是关于自监督语音模型(Self-Supervised Speech Learning, SSL)的接口设计。自监督语音模型是一种通过大量未标记数据进行预训练,然后在少量标记数据上进行微调,以完成特定下游任务的模型。这些模型在自动语音识别等语音处理任务中... 阅读全文

    优惠 模型编辑技术对跨语言性能的影响,特别是在多语言环境中的表现

  • 模型编辑技术对跨语言性能的影响,特别是在多语言环境中的表现
    AI
  • 印度理工学院、美国国家标准与技术研究所和新加坡科技设计大学的研究人员发布论文,论文的主题是探讨模型编辑技术对跨语言性能的影响,特别是在多语言环境中的表现。模型编辑技术允许我们对预训练语言模型(PLMs)进行微调,以便它们能够更好地适应特定的输入和需求。这项技术在英文环境中已经取得了显著的成果,但同时也暴露了语言间的不平... 阅读全文

    优惠 新型大语言模型Self-MoE:将传统的单一大型模型转变为由多个自专业化专家组成的模块化系统

  • 新型大语言模型Self-MoE:将传统的单一大型模型转变为由多个自专业化专家组成的模块化系统
    AI
  • 佐治亚理工学院、MIT-IBM Watson AI 实验室、麻省理工学院、加州大学圣地亚哥分校和MBZUAI的研究人员发布新型大语言模型Self-MoE,它将传统的单一大型模型转变为由多个自专业化专家组成的模块化系统,这些专家被称为MiXSE(MiXture of Self-specialized Experts,即自... 阅读全文

    优惠 B站开源了轻量级 Index-1.9B 系列模型:包含基座模型、对照组、对话模型、角色扮演模型等多个版本

  • B站开源了轻量级 Index-1.9B 系列模型:包含基座模型、对照组、对话模型、角色扮演模型等多个版本
    AI
  • B站昨日开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。据介绍,该模型在预训练阶段使用了 2.8T 规模的数据,中英比例为 4:5,代码占比 6%。目前,角色扮演模型内置了角色“三三”,用户也可以按需创建自己的角色。 GitHub:https://github.co... 阅读全文

    优惠 苹果发力AI开源领域:Hugging Face新增20个Core ML模型

  • 苹果发力AI开源领域:Hugging Face新增20个Core ML模型
    AI
  • 苹果公司近日在开放源代码人工智能社区Hugging Face上显著扩大了其贡献,上传了20个新的核心机器学习模型。这一举动是对4月份发布的4个开源高效语言模型(OpenELMs)的有力补充,同样托管于Hugging Face平台。此次更新不仅涵盖了多样化的文本处理模型,也包括面向图像识别与处理的任务(例如图像分类和深度... 阅读全文

    优惠 基准测试MMNeedle:专门用来考验这些模型在复杂视觉和文本环境中检索特定信息的能力

  • 基准测试MMNeedle:专门用来考验这些模型在复杂视觉和文本环境中检索特定信息的能力
    AI
  • 罗格斯大学、微软研究院等研究人员推出基准测试“MultiModal Needle-in-a-haystack”(简称MMNeedle),评估和测试多模态大型语言模型(Multimodal Large Language Models,简称MLLMs)在处理长文本上下文方面的能力,专门用来考验这些模型在复杂视觉和文本环境中... 阅读全文

    优惠 为视觉变换器(ViTs)这类深度学习模型提供可信的概念性解释

  • 为视觉变换器(ViTs)这类深度学习模型提供可信的概念性解释
    AI
  • 这篇论文的主题是关于如何为视觉变换器(Vision Transformers,简称ViTs)这类深度学习模型提供可信的概念性解释。简单来说,就是帮助人们理解这些复杂的AI模型是如何"思考"的,特别是在图像识别任务中。论文还提到了一些定量和定性的结果,证明了PACE在多个数据集上相比于现有方法的优势。此外,论文讨论了PA... 阅读全文

    优惠 新基准测试套件Long Code Arena:专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现

  • 新基准测试套件Long Code Arena:专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现
    AI
  • JetBrains Research和代尔夫特理工大学推出新基准测试套件Long Code Arena,它专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现。简单来说,它是一个挑战场,让计算机程序在编写、理解和修复代码时,能够更好地利用整个项目的信息,而不仅仅是单个文件或函数。Long Code Arena的... 阅读全文

    优惠 SafeInfer:提高大语言模型在生成文本时的安全性

  • SafeInfer:提高大语言模型在生成文本时的安全性
    AI
  • 印度理工学院、微软印度研究院、新加坡科技设计大学的研究人员发布论文,论文的主题是关于如何提高大语言模型在生成文本时的安全性。简单来说,就是教这些智能的计算机程序在回答问题时,怎样避免产生不当或有害的内容。论文还提出了一个名为HARMEVAL的新基准测试,用于评估模型在不同场景下的安全性表现,并且提供了相关代码和数据集的... 阅读全文

    优惠 新训练技术“反思增强(RefAug)”:用于提升语言模型在数学推理任务上的表现

  • 新训练技术“反思增强(RefAug)”:用于提升语言模型在数学推理任务上的表现
    AI
  • 圣母大学和 腾讯人工智能实验室的研究人员推出一种新训练技术“反思增强”(Reflective Augmentation,简称RefAug),用于提升语言模型在数学推理任务上的表现。这项技术的核心思想是让模型在训练过程中不仅仅是学习如何回答问题,而是通过反思来加深对问题的理解,从而提高解决更复杂问题的能力。论文的实验结果... 阅读全文

    优惠 超对齐(Superalignment):使用弱模型(即能力不如强模型的AI)去监督和训练强模型时,是否存在一种被称为“弱到强欺骗”(weak-to-strong deception)的现象

  • 超对齐(Superalignment):使用弱模型(即能力不如强模型的AI)去监督和训练强模型时,是否存在一种被称为“弱到强欺骗”(weak-to-strong deception)的现象
    AI
  • 中国人民大学高岭人工智能学院和腾讯的研究人员发布论文,论文探讨了一个在大语言模型(LLMs)快速发展时代中非常重要的问题:超对齐(Superalignment)。在这种情境下,人类的监督能力相对于模型的超人类能力而言是较弱的。论文的核心关注点是,当我们使用弱模型(即能力不如强模型的AI)去监督和训练强模型时,是否存在一... 阅读全文