大语言模型

优惠 大语言模型微调框架Unsloth:简化了语言模型的微调流程,提升模型性能

  • 大语言模型微调框架Unsloth:简化了语言模型的微调流程,提升模型性能
    AI
  • Unsloth是一款引人注目的创新框架,它简化了语言模型的微调流程,并提供了一种直接有效的方法来提升模型性能。该框架与诸如Mistral、Llama 2.0和Gemma等广受欢迎的开源大语言模型(LLM)完美融合,为自然语言处理领域的研究者和实践者提供了一套功能全面的工具集,以满足他们的各种需求。 官网:https:/... 阅读全文

    优惠 大语言模型(LLMs)的持续预训练策略

  • 大语言模型(LLMs)的持续预训练策略
    AI
  • 这篇论文探讨了大语言模型(LLMs)的持续预训练策略。大语言模型是人工智能领域的一个重要组成部分,它们通过学习大量文本数据来理解和生成人类语言。例如,当你使用智能助手或搜索引擎时,背后的技术可能就是一个语言模型。 主要功能: 提出了一种简单且可扩展的方法,通过持续预训练来更新大型语言模型,而不是每次都从头开始训练。 展... 阅读全文

    优惠 如何通过强化学习来提升大语言模型的推理能力

  • 如何通过强化学习来提升大语言模型的推理能力
    AI
  • 这篇论文探讨了如何通过强化学习(Reinforcement Learning, RL)来提升大语言模型(Large Language Models, LLMs)的推理能力。研究者们尝试了多种RL算法,包括专家迭代(Expert Iteration, EI)、近端策略优化(Proximal Policy Optimiza... 阅读全文

    优惠 AMD联合LM Studio推出专属AMD ROCm技术的LM Studio版本,可在本地运行开源大语言模型

  • AMD联合LM Studio推出专属AMD ROCm技术的LM Studio版本,可在本地运行开源大语言模型
    AI
  • 继英伟达发布Chat with RTX后!AMD联合LM Studio推出专属AMD ROCm技术的LM Studio版本,用户现在可以在其平台上本地化运行开源大语言模型(LLM),并构建专属的AI聊天机器人。这一功能支持具有XDNA NPU的Ryzen 7000/8000系列处理器以及内置AI加速核心的Radeon ... 阅读全文

    优惠 RESONANCE RoPE(共振旋转位置编码):改善大语言模型(LLMs)在处理长文本时的性能

  • RESONANCE RoPE(共振旋转位置编码):改善大语言模型(LLMs)在处理长文本时的性能
    AI
  • 来自蒙特利尔大学、魁北克人工智能研究所、华为诺亚方舟实验室的研究人员发布论文介绍了一种名为RESONANCE RoPE(共振旋转位置编码)的技术,它旨在改善大语言模型(LLMs)在处理长文本时的性能。在训练时,模型通常处理较短的文本序列,但在实际应用中可能需要处理更长的文本,这就是所谓的“训练短-测试长”(TSTL)场... 阅读全文

    优惠 非盈利机构 AllenAI 推出完全开源的大语言模型 OLMo:不仅有模型还包括完整的训练代码、数据集和评估代码

  • 非盈利机构 AllenAI 推出完全开源的大语言模型 OLMo:不仅有模型还包括完整的训练代码、数据集和评估代码
    AI
  • 非盈利机构 AllenAI 正式推出完全开源的大语言模型 OLMo,此次开源不仅有模型还包括完整的训练代码、数据集和评估代码,官方宣布通过开放研究来加速语言模型科学的发展。首次发布的内容包括四个参数规模达到 70 亿的语言模型,这些模型具有不同的架构、优化器和训练硬件,另外还有一个参数规模为 10 亿的模型。所有这些模... 阅读全文

    优惠 学术干货 | 大语言模型数据集大盘点

  • 学术干货 | 大语言模型数据集大盘点
    AI
  • 华南理工与合合信息团队联合发布了一篇深度解析论文,聚焦大语言模型(LLM)所需的数据集现状与发展趋势。他们从五大关键方面梳理了LLM数据集资源: 1️⃣ 预训练语料库:奠定LLM语言学习基础的大规模文本集合。 2️⃣ 指令微调数据集:专门针对LLM进行任务导向性优化的关键数据源。 3️⃣ 偏好数据集:关乎用户需求、道德... 阅读全文

    优惠 Priority Sampling:提高大语言模型(LLMs)在编译器中的性能

  • Priority Sampling:提高大语言模型(LLMs)在编译器中的性能
    AI
  • Meta AI发布论文介绍了一种名为“Priority Sampling”的新技术,它用于提高大语言模型(LLMs)在编译器中的性能。大语言模型是一种人工智能技术,可以理解和生成自然语言,甚至编程语言的代码。假设你正在开发一个程序,需要优化以减少内存使用。你可以使用这个技术来生成多种可能的优化方案,然后选择最有效的那个... 阅读全文

    优惠 大语言模型在微调(finetuning)过程中的缩放特性

  • 大语言模型在微调(finetuning)过程中的缩放特性
    AI
  • 谷歌研究人员发布论文探讨了大语言模型(LLMs)在微调(finetuning)过程中的缩放特性,特别是在不同因素(如模型大小、预训练数据量、微调参数量和微调数据量)的影响下,微调性能如何变化。研究团队通过系统实验,分析了这些因素对微调效果的影响,并提出了一种新的缩放定律来描述这些关系。 论文地址:https://arx... 阅读全文

    优惠 DCA:帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练

  • DCA:帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练
    AI
  • 这篇论文介绍了一种名为Dual Chunk Attention(DCA)的新方法,它旨在帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练。想象一下,你有一个能够聊天的机器人,但这个机器人在处理很长的对话或者阅读大型PDF文件时就会遇到困难。DCA就是为了解决这个问题而设计的。 论文地址:https:... 阅读全文

    优惠 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理

  • 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理
    AI
  • Google DeepMind 、UCL、 Google Research、特拉维夫大学的研究人员发布论文探讨了大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理。多跳推理是指模型在没有直接给出推理所需信息的情况下,能够通过存储在参数中的知识来完成推理任务。例如,当处理“‘Superstition’这首歌... 阅读全文

    优惠 通用模型StructLM:通过指令调整和大规模数据集训练,提高了大语言模型在结构化知识接地任务上的性能

  • 通用模型StructLM:通过指令调整和大规模数据集训练,提高了大语言模型在结构化知识接地任务上的性能
    AI
  • 滑铁卢大学、多模式艺术投影研究社区、 早稻田大学、香港科技大学、俄亥俄州立大学、 Harmony.ai、矢量研究所的研究人员推出通用模型StructLM,它旨在提高大语言模型(LLMs)在处理结构化数据(如表格、图形和数据库)方面的能力。尽管LLMs在处理纯文本方面表现出色,但它们在理解和利用结构化数据方面的能力仍有待... 阅读全文