大语言模型

优惠 命令行工具Aider:允许您与 GPT-3.5/GPT-4 进行结对编程,以编辑本地 git 仓库中存储的代码

  • 命令行工具Aider:允许您与 GPT-3.5/GPT-4 进行结对编程,以编辑本地 git 仓库中存储的代码
    AI
  • Aider 是一款命令行工具,它允许您与 GPT-3.5/GPT-4 进行结对编程,以编辑本地 git 仓库中存储的代码。Aider 会直接修改您本地源文件中的代码,并自动使用合理的提交信息将其提交到 git。您可以借助它开启一个新项目,也可以与现有的 git 仓库协同工作。Aider 的独特之处在于,它能够根据您的请... 阅读全文

    优惠 360 智脑 7B 参数大模型开源,支持 50 万字长文本输入

  • 360 智脑 7B 参数大模型开源,支持 50 万字长文本输入
    AI
  • 360 公司日前在 GitHub 上开源了 360 智脑 7B(70 亿参数模型)。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练,以中文、英文、代码为主,开放 4K、32K、360K 三种不同文本长度。360 表示,360K(约 50 万字)是当前国产开源模型文本长度最长的。 GitHub:http... 阅读全文

    优惠 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力

  • 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力
    AI
  • 来自亚利桑那大学和克卢日·纳波卡技术大学的研究人员发布论文探讨了大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力。简单来说,就是研究这些智能模型是否能通过观察一些例子,就能学会预测或估计某些数值。 例如,假设我们有一... 阅读全文

    优惠 大语言模型JetMoE-8B:通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性

  • 大语言模型JetMoE-8B:通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性
    AI
  • 来自MIT的研究人员推出新型大语言模型JetMoE-8B,它通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性。例如,你有一个超级聪明的机器人朋友,它可以和你聊天、帮你写代码、解答数学问题,甚至还能理解和生成不同语言的文本,这就是JetMoE-8B的超能力。 项目主页:https://r... 阅读全文

    优惠 英伟达推出数据据Audio Dialogues:提升音频和音乐理解方面的对话能力

  • 英伟达推出数据据Audio Dialogues:提升音频和音乐理解方面的对话能力
    AI
  • 英伟达推出数据据Audio Dialogues,旨在提升音频和音乐理解方面的对话能力。现有的音频理解数据集主要集中在单轮交互上,例如音频描述或音频问答,这些数据集限制了通过交互式对话理解音频的能力。Audio Dialogues是一个多轮对话数据集,包含了16.38万个样本,涵盖一般声音和音乐。除了对话样本,该数据集还... 阅读全文

    优惠 谷歌推出新型开放语言模型RecurrentGemma

  • 谷歌推出新型开放语言模型RecurrentGemma
    AI
  • 谷歌推出新型开放语言模型RecurrentGemma,它使用了谷歌的Griffin架构。Griffin架构通过结合线性递归和局部注意力机制,在处理语言任务时表现出色。RecurrentGemma模型的一个显著特点是它具有固定大小的状态,这减少了内存使用,使得在长序列上进行高效推理成为可能。研究者们提供了一个预训练模型,... 阅读全文

    优惠 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”

  • 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”
    AI
  • 来自厦门大学、清华大学和微软的研究人员推出语言模型RHO-1,它的设计理念是“并非所有的词汇对于语言模型训练都同等重要”。RHO-1挑战了传统的语言模型训练方法,后者通常会对所有训练词汇应用相同的预测下一个词汇的损失函数。通过对语言模型训练过程中的词汇级别动态进行初步分析,研究者们发现不同的词汇在训练中表现出不同的损失... 阅读全文

    优惠 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力

  • 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力
    AI
  • 苹果推出一个升级版的多模态大语言模型Ferret-v2,专门设计用于提升图像理解和自然语言处理的能力。例如,你有一个智能助手,它不仅能理解你说的话,还能看懂图片里的内容,并根据图片和你的问题给出精确的回答。Ferret-v2就是这样一个系统,它能够识别和描述图片中的物体,理解图片中的细节,并根据这些信息回答有关图片的问... 阅读全文

    优惠 用于测试和开发多模态智能体的基准平台OSWORLD

  • 用于测试和开发多模态智能体的基准平台OSWORLD
    AI
  • 来自香港大学、Salesforce Research、卡内基梅隆大学和滑铁卢大学的研究人员推出OSWORLD,它是一个用于测试和开发多模态智能体的基准平台。这些智能体是指能够通过自然语言指令和图形界面与计算机系统交互的人工智能程序。例如,你有一个虚拟助手,它可以帮你完成电脑上的各种任务,比如编辑文档、浏览网页、管理电子... 阅读全文

    优惠 LLoCO:旨在解决大语言模型处理长文本时遇到的挑战

  • LLoCO:旨在解决大语言模型处理长文本时遇到的挑战
    AI
  • 加州大学伯克利分校的研究人员推出新技术LLoCO(Learning Long Contexts Offline),旨在解决大语言模型(LLMs)处理长文本时遇到的挑战。由于自注意力机制的计算和内存开销随序列长度增加而呈二次方增长,以及生成过程中庞大的键值(KV)缓存大小,处理长文本对LLMs来说一直是个难题。 主要功能... 阅读全文

    优惠 新型车道检测方法Sparse Laneformer

  • 新型车道检测方法Sparse Laneformer
    AI
  • 这篇论文介绍了一种名为Sparse Laneformer的新型车道检测方法,这是一种在自动驾驶领域中非常关键的技术。车道检测的主要任务是从给定的图像中预测车道的位置,这对于高级驾驶辅助系统(ADAS)或自动驾驶系统来说非常重要。 主要功能和特点: 使用稀疏锚点:与传统的基于密集锚点的车道检测方法不同,Sparse La... 阅读全文

    优惠 合成数据在语言模型开发中的应用、挑战和未来方向

  • 合成数据在语言模型开发中的应用、挑战和未来方向
    AI
  • 谷歌发布论文讨论了合成数据(Synthetic Data)在语言模型开发中的应用、挑战和未来方向。合成数据是指通过算法、生成模型或模拟生成的,模仿现实世界数据特性和模式的人工数据。论文强调了合成数据在解决数据稀缺、隐私担忧和高成本问题方面的潜力,并探讨了如何负责任地使用合成数据来构建更强大、包容和可信的AI系统。 主要... 阅读全文