大语言模型

优惠 DCA:帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练

  • DCA:帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练
    AI
  • 这篇论文介绍了一种名为Dual Chunk Attention(DCA)的新方法,它旨在帮助大语言模型(LLMs)处理和生成更长文本内容,而不需要额外的训练。想象一下,你有一个能够聊天的机器人,但这个机器人在处理很长的对话或者阅读大型PDF文件时就会遇到困难。DCA就是为了解决这个问题而设计的。 论文地址:https:... 阅读全文

    优惠 数据集和基准测试OmniACT:评估虚拟代理在执行计算机任务方面的能力

  • 数据集和基准测试OmniACT:评估虚拟代理在执行计算机任务方面的能力
    AI
  • 这篇论文介绍了一个名为OmniACT的数据集和基准测试,旨在评估虚拟代理在执行计算机任务方面的能力。这些任务包括在桌面和网页应用中执行各种操作,如查看股票价格变化、在租房网站上查找房源、查看特定日期的天气等。OmniACT的目标是生成可执行的程序脚本,以自动化这些任务。 论文地址:https://arxiv.org/a... 阅读全文

    优惠 新型数据集LOCOMO:评估大语言模型(LLMs)在处理非常长期的对话中的记忆能力

  • 新型数据集LOCOMO:评估大语言模型(LLMs)在处理非常长期的对话中的记忆能力
    AI
  • 北卡罗来纳大学教堂山分校、南加州大学、Snap的研究人员推出新型数据集LOCOMO,它专注于评估大语言模型(LLMs)在处理非常长期的对话中的记忆能力。在现有的研究中,对话模型通常只评估在不超过五个聊天会话的上下文中的模型响应。然而,LOCOMO数据集通过模拟真实世界的在线互动,收集了包含多达35个会话、平均每个对话有... 阅读全文

    优惠 如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤

  • 如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤
    AI
  • 来自微软的研究人员发布论文探讨了如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤。研究者们提出了一种理论,用于最佳化LMs的学习,这涉及到最大化数据压缩比,即在“LM训练作为无损压缩”的观点下进行优化。 论文地址:https://arxiv.org/abs/2402.17759 主要功能和特点:... 阅读全文

    优惠 新型大语言模型BitNet b1.58

  • 新型大语言模型BitNet b1.58
    AI
  • 这篇论文介绍了一种新型的大语言模型(LLM),称为BitNet b1.58。这种模型的核心特点是使用了1.58位的参数(或权重),这意味着每个参数只有三种可能的值:-1、0和1。这种设计不仅在保持模型性能的同时显著降低了计算成本,还在内存、延迟、吞吐量和能源消耗方面带来了显著的效益。 论文地址:https://arxi... 阅读全文

    优惠 视频作为一种新兴的“语言”,在现实世界决策制定中的应用潜力

  • 视频作为一种新兴的“语言”,在现实世界决策制定中的应用潜力
    AI
  • 这篇论文探讨了视频作为一种新兴的“语言”,在现实世界决策制定中的应用潜力。作者们认为,尽管文本数据在互联网上非常丰富,并且已经在大规模自监督学习中发挥了重要作用,但视频数据同样蕴含着关于物理世界的重要信息,这些信息往往难以用语言来表达。视频不仅包含了丰富的视觉和空间信息,还能捕捉物理动态、行为动作等,这些都是文本难以完... 阅读全文

    优惠 开发者打造苹果专属大模型运行工具Chat with MLX

  • 开发者打造苹果专属大模型运行工具Chat with MLX
    AI
  • 开发者受到英伟达Chat with RTX启发,专为苹果Silicon系列处理器的电脑打造了一款本地大模型运行工具Chat with MLX,此工具自动下载本地模型,并且可以同本地文件进行交互,支持多种语言,包括英语、西班牙语、中文和越南语。该项目的一个关键特点是易于集成,用户可以轻松集成任何HuggingFace和M... 阅读全文

    优惠 大语言模型ChatMusician:不仅能够处理文本生成任务,还能够理解和生成音乐

  • 大语言模型ChatMusician:不仅能够处理文本生成任务,还能够理解和生成音乐
    AI
  • 香港科技大学的研究人员发布论文介绍了一个名为ChatMusician的新型大语言模型(LLM),它不仅能够处理文本生成任务,还能够理解和生成音乐。ChatMusician通过持续预训练和微调LLaMA2模型,使其能够处理与文本兼容的音乐表示——ABC记谱法,将音乐视为一种语言。这个模型能够在不依赖外部多模态神经结构或标... 阅读全文

    优惠 新型视觉质量比较模型Co-Instruct:对多张图片进行开放性的质量比较,提供详细的推理过程,而不仅仅是给出一个简单的质量评分

  • 新型视觉质量比较模型Co-Instruct:对多张图片进行开放性的质量比较,提供详细的推理过程,而不仅仅是给出一个简单的质量评分
    AI
  • 这篇论文介绍了一个名为Co-Instruct的新型视觉质量比较模型。这个模型的目标是能够对多张图片进行开放性的质量比较,提供详细的推理过程,而不仅仅是给出一个简单的质量评分。Co-Instruct模型通过比较设置(例如成对选择、列表排序)来评估图像质量,这种方法可以标准化不同观察者之间的评估标准,并提供更明确的响应。 ... 阅读全文

    优惠 英伟达推出大型多语言语言模型Nemotron-4 15B

  • 英伟达推出大型多语言语言模型Nemotron-4 15B
    AI
  • 英伟达发布论文介绍大型多语言语言模型Nemotron-4 15B,这个模型拥有150亿个参数,是在8万亿个文本标记上训练出来的。Nemotron-4 15B在英语、多语言和编程任务上表现出色,它在7个下游评估领域中的4个领域超过了所有现有的类似规模的开放模型,并在其余领域与领先的开放模型表现相当。特别是,Nemotro... 阅读全文

    优惠 MegaScale:为了在超过10,000个GPU上训练大语言模型而设计

  • MegaScale:为了在超过10,000个GPU上训练大语言模型而设计
    AI
  • 北京大学和字节跳动的研究人员发布论文论文介绍了一个名为MegaScale的系统,它是为了在超过10,000个GPU上训练大语言模型(LLMs)而设计的。大型语言模型是人工智能领域的一种技术,它们能够理解和生成自然语言,比如我们熟悉的GPT-3和PaLM。这些模型在机器翻译、文本摘要和对话代理等领域有着巨大的潜力。 论文... 阅读全文

    优惠 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理

  • 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理
    AI
  • Google DeepMind 、UCL、 Google Research、特拉维夫大学的研究人员发布论文探讨了大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理。多跳推理是指模型在没有直接给出推理所需信息的情况下,能够通过存储在参数中的知识来完成推理任务。例如,当处理“‘Superstition’这首歌... 阅读全文