大语言模型

优惠 新基准测试工具τ-bench:专门用来评估语言代理(智能助手或聊天机器人)在真实世界应用场景中与人类用户互动的能力

  • 新基准测试工具τ-bench:专门用来评估语言代理(智能助手或聊天机器人)在真实世界应用场景中与人类用户互动的能力
    AI
  • Sierra推出新基准测试工具τ-bench,它专门用来评估语言代理(也就是我们通常所说的智能助手或聊天机器人)在真实世界应用场景中与人类用户互动的能力。这就像是给智能助手们进行一次全面的“模拟考试”,看看它们在实际工作中的表现如何。例如,你是一个航空公司的智能助手,用户想要更改他们的航班预订。你需要通过与用户的对话了... 阅读全文

    优惠 新型基准测试工具REPOEXEC:用于评估代码生成模型在处理整个代码库级别的任务时的能力

  • 新型基准测试工具REPOEXEC:用于评估代码生成模型在处理整个代码库级别的任务时的能力
    AI
  • 越南FPT 软件 AI 中心和富布赖特大学的研究人员推出新型基准测试工具REPOEXEC,它用于评估代码生成模型(CodeLLMs)在处理整个代码库级别的任务时的能力。REPOEXEC的核心目标是测试这些模型生成的代码是否可执行、功能正确,并且能够准确利用跨文件的上下文信息。实验结果表明,尽管预训练的大型语言模型(LL... 阅读全文

    优惠 新型预训练方法“指令预训练(Instruction Pre-Training)”:通过在原始语料库中加入指令-响应对来增强传统的语言模型的预训练过程

  • 新型预训练方法“指令预训练(Instruction Pre-Training)”:通过在原始语料库中加入指令-响应对来增强传统的语言模型的预训练过程
    AI
  • 微软研究院和清华大学的研究人员推出一种新型的预训练方法,名为“指令预训练”(Instruction Pre-Training),这种方法通过在原始语料库中加入指令-响应对来增强传统的语言模型(LMs)的预训练过程。指令-响应对是由一个高效的指令合成器生成的,该合成器基于开源模型构建。论文的实验结果表明,指令预训练在多种... 阅读全文

    优惠 大语言模型中实现“忘却”(unlearning)的能力,即从模型中移除特定概念或信息

  • 大语言模型中实现“忘却”(unlearning)的能力,即从模型中移除特定概念或信息
    AI
  • 华南理工大学、多伦多大学、巴伊兰大学、中国国际数字经济学院 (IDEA) 和特拉维夫大学的研究人员发布论文,论文的主题是探讨在大语言模型(LLMs)中实现“忘却”(unlearning)的能力,即从模型中移除特定概念或信息。这项研究非常重要,因为它有助于减轻模型可能产生的不良影响,例如生成有害、私密或错误的信息。 主要... 阅读全文

    优惠 自监督语音模型的接口设计

  • 自监督语音模型的接口设计
    AI
  • 美国德克萨斯大学奥斯汀分校计算机科学系的研究人员发布论文,论文的主题是关于自监督语音模型(Self-Supervised Speech Learning, SSL)的接口设计。自监督语音模型是一种通过大量未标记数据进行预训练,然后在少量标记数据上进行微调,以完成特定下游任务的模型。这些模型在自动语音识别等语音处理任务中... 阅读全文

    优惠 模型编辑技术对跨语言性能的影响,特别是在多语言环境中的表现

  • 模型编辑技术对跨语言性能的影响,特别是在多语言环境中的表现
    AI
  • 印度理工学院、美国国家标准与技术研究所和新加坡科技设计大学的研究人员发布论文,论文的主题是探讨模型编辑技术对跨语言性能的影响,特别是在多语言环境中的表现。模型编辑技术允许我们对预训练语言模型(PLMs)进行微调,以便它们能够更好地适应特定的输入和需求。这项技术在英文环境中已经取得了显著的成果,但同时也暴露了语言间的不平... 阅读全文

    优惠 新型大语言模型Self-MoE:将传统的单一大型模型转变为由多个自专业化专家组成的模块化系统

  • 新型大语言模型Self-MoE:将传统的单一大型模型转变为由多个自专业化专家组成的模块化系统
    AI
  • 佐治亚理工学院、MIT-IBM Watson AI 实验室、麻省理工学院、加州大学圣地亚哥分校和MBZUAI的研究人员发布新型大语言模型Self-MoE,它将传统的单一大型模型转变为由多个自专业化专家组成的模块化系统,这些专家被称为MiXSE(MiXture of Self-specialized Experts,即自... 阅读全文

    优惠 B站开源了轻量级 Index-1.9B 系列模型:包含基座模型、对照组、对话模型、角色扮演模型等多个版本

  • B站开源了轻量级 Index-1.9B 系列模型:包含基座模型、对照组、对话模型、角色扮演模型等多个版本
    AI
  • B站昨日开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。据介绍,该模型在预训练阶段使用了 2.8T 规模的数据,中英比例为 4:5,代码占比 6%。目前,角色扮演模型内置了角色“三三”,用户也可以按需创建自己的角色。 GitHub:https://github.co... 阅读全文

    优惠 苹果发力AI开源领域:Hugging Face新增20个Core ML模型

  • 苹果发力AI开源领域:Hugging Face新增20个Core ML模型
    AI
  • 苹果公司近日在开放源代码人工智能社区Hugging Face上显著扩大了其贡献,上传了20个新的核心机器学习模型。这一举动是对4月份发布的4个开源高效语言模型(OpenELMs)的有力补充,同样托管于Hugging Face平台。此次更新不仅涵盖了多样化的文本处理模型,也包括面向图像识别与处理的任务(例如图像分类和深度... 阅读全文

    优惠 基准测试MMNeedle:专门用来考验这些模型在复杂视觉和文本环境中检索特定信息的能力

  • 基准测试MMNeedle:专门用来考验这些模型在复杂视觉和文本环境中检索特定信息的能力
    AI
  • 罗格斯大学、微软研究院等研究人员推出基准测试“MultiModal Needle-in-a-haystack”(简称MMNeedle),评估和测试多模态大型语言模型(Multimodal Large Language Models,简称MLLMs)在处理长文本上下文方面的能力,专门用来考验这些模型在复杂视觉和文本环境中... 阅读全文

    优惠 为视觉变换器(ViTs)这类深度学习模型提供可信的概念性解释

  • 为视觉变换器(ViTs)这类深度学习模型提供可信的概念性解释
    AI
  • 这篇论文的主题是关于如何为视觉变换器(Vision Transformers,简称ViTs)这类深度学习模型提供可信的概念性解释。简单来说,就是帮助人们理解这些复杂的AI模型是如何"思考"的,特别是在图像识别任务中。论文还提到了一些定量和定性的结果,证明了PACE在多个数据集上相比于现有方法的优势。此外,论文讨论了PA... 阅读全文

    优惠 新基准测试套件Long Code Arena:专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现

  • 新基准测试套件Long Code Arena:专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现
    AI
  • JetBrains Research和代尔夫特理工大学推出新基准测试套件Long Code Arena,它专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现。简单来说,它是一个挑战场,让计算机程序在编写、理解和修复代码时,能够更好地利用整个项目的信息,而不仅仅是单个文件或函数。Long Code Arena的... 阅读全文