大语言模型

优惠 Vercel推出其AI SDK 3.0:引入更多模型支持

  • Vercel推出其AI SDK 3.0:引入更多模型支持
    AI
  • 🌟 Vercel宣布推出其AI SDK 3.0,这次更新带来了令人瞩目的新功能!除了继续支持Vercel v0的生成UI,AI SDK 3.0还引入了LLM(大语言模型)的支持,让开发者能够轻松实现搜索、任务规划等模块。 🚀 在AI SDK 3.0中,你可以调用多种先进的模型,包括Mistral、Azure、Perpl... 阅读全文

    优惠 学术干货 | 大语言模型数据集大盘点

  • 学术干货 | 大语言模型数据集大盘点
    AI
  • 华南理工与合合信息团队联合发布了一篇深度解析论文,聚焦大语言模型(LLM)所需的数据集现状与发展趋势。他们从五大关键方面梳理了LLM数据集资源: 1️⃣ 预训练语料库:奠定LLM语言学习基础的大规模文本集合。 2️⃣ 指令微调数据集:专门针对LLM进行任务导向性优化的关键数据源。 3️⃣ 偏好数据集:关乎用户需求、道德... 阅读全文

    优惠 神经网络模型Hawk和Griffin:提高语言模型在处理长序列数据时的效率

  • 神经网络模型Hawk和Griffin:提高语言模型在处理长序列数据时的效率
    AI
  • Google DeepMind研究人员发布论文介绍了两种新型的神经网络模型,名为Hawk和Griffin,它们旨在提高语言模型在处理长序列数据时的效率。它们结合了循环神经网络(RNN)和注意力机制的特点,以实现快速推理和有效扩展。假设我们正在开发一个能够理解和生成复杂对话的聊天机器人。使用Griffin模型,我们可以训... 阅读全文

    优惠 新型语言模型架构Based:提高语言模型的效率,尤其是在处理长序列数据时

  • 新型语言模型架构Based:提高语言模型的效率,尤其是在处理长序列数据时
    AI
  • 这篇论文介绍了一种名为“Based”的新型语言模型架构,它旨在提高语言模型的效率,尤其是在处理长序列数据时。这种模型试图在保持高质量输出的同时,减少计算资源的消耗,特别是在内存使用和推理速度方面。假设我们正在开发一个聊天机器人,它需要理解和生成自然语言。使用Based模型,我们可以训练一个高效的语言模型,它不仅能够快速... 阅读全文

    优惠 Priority Sampling:提高大语言模型(LLMs)在编译器中的性能

  • Priority Sampling:提高大语言模型(LLMs)在编译器中的性能
    AI
  • Meta AI发布论文介绍了一种名为“Priority Sampling”的新技术,它用于提高大语言模型(LLMs)在编译器中的性能。大语言模型是一种人工智能技术,可以理解和生成自然语言,甚至编程语言的代码。假设你正在开发一个程序,需要优化以减少内存使用。你可以使用这个技术来生成多种可能的优化方案,然后选择最有效的那个... 阅读全文

    优惠 Python库PandasAI:通过使用生成式人工智能,帮助用户探索、清理和分析数据

  • Python库PandasAI:通过使用生成式人工智能,帮助用户探索、清理和分析数据
    AI
  • PandasAI是一个Python库,它简化了使用自然语言向数据(如CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databricks、Snowflake等)提问的过程。通过使用生成式人工智能,PandasAI帮助用户探索、清理和分析数据。除了查询功能外,PandasAI还提供了数据可视化、数据... 阅读全文

    优惠 数字世界模拟器bGPT:专门用来处理和理解二进制数据的新型模型

  • 数字世界模拟器bGPT:专门用来处理和理解二进制数据的新型模型
    AI
  • 微软亚洲研究院、中央音乐学院、清华大学的研究人员推出新型模型bGPT,它是一种数字世界模拟器,专门用来处理和理解二进制数据。它不同于传统的深度学习模型,因为它不再仅仅关注于人类容易理解的数字媒体文件,如文本、音频和图像,而是深入到了最基本的数字单位——字节。在数字世界中,所有的信息和操作都是以二进制格式编码和处理的,而... 阅读全文

    优惠 英伟达联合 Hugging Face和云计算公司ServiceNow发布开源代码生成模型系列StarCoder 2

  • 英伟达联合 Hugging Face和云计算公司ServiceNow发布开源代码生成模型系列StarCoder 2
    AI
  • 英伟达联合 Hugging Face和云计算公司ServiceNow发布开源代码生成模型系列StarCoder 2,希望成为代码生成领域的新标准,释出的模型包括由ServiceNow训练的30亿参数模型、Hugging Face训练的70亿参数模型、英伟达训练的150亿参数模型,前两个模型可在大多数消费级GPU上运行。... 阅读全文

    优惠 大语言模型在微调(finetuning)过程中的缩放特性

  • 大语言模型在微调(finetuning)过程中的缩放特性
    AI
  • 谷歌研究人员发布论文探讨了大语言模型(LLMs)在微调(finetuning)过程中的缩放特性,特别是在不同因素(如模型大小、预训练数据量、微调参数量和微调数据量)的影响下,微调性能如何变化。研究团队通过系统实验,分析了这些因素对微调效果的影响,并提出了一种新的缩放定律来描述这些关系。 论文地址:https://arx... 阅读全文

    优惠 DCA:帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练

  • DCA:帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练
    AI
  • 这篇论文介绍了一种名为Dual Chunk Attention(DCA)的新方法,它旨在帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练。想象一下,你有一个能够聊天的机器人,但这个机器人在处理很长的对话或者阅读大型PDF文件时就会遇到困难。DCA就是为了解决这个问题而设计的。 论文地址:https:... 阅读全文

    优惠 数据集和基准测试OmniACT:评估虚拟代理在执行计算机任务方面的能力

  • 数据集和基准测试OmniACT:评估虚拟代理在执行计算机任务方面的能力
    AI
  • 这篇论文介绍了一个名为OmniACT的数据集和基准测试,旨在评估虚拟代理在执行计算机任务方面的能力。这些任务包括在桌面和网页应用中执行各种操作,如查看股票价格变化、在租房网站上查找房源、查看特定日期的天气等。OmniACT的目标是生成可执行的程序脚本,以自动化这些任务。 论文地址:https://arxiv.org/a... 阅读全文

    优惠 新型数据集LOCOMO:评估大语言模型(LLMs)在处理非常长期的对话中的记忆能力

  • 新型数据集LOCOMO:评估大语言模型(LLMs)在处理非常长期的对话中的记忆能力
    AI
  • 北卡罗来纳大学教堂山分校、南加州大学、Snap的研究人员推出新型数据集LOCOMO,它专注于评估大语言模型(LLMs)在处理非常长期的对话中的记忆能力。在现有的研究中,对话模型通常只评估在不超过五个聊天会话的上下文中的模型响应。然而,LOCOMO数据集通过模拟真实世界的在线互动,收集了包含多达35个会话、平均每个对话有... 阅读全文