大语言模型

优惠 如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤

  • 如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤
    AI
  • 来自微软的研究人员发布论文探讨了如何优化语言模型(LMs)的学习过程,目的是减少达到高性能所需的训练步骤。研究者们提出了一种理论,用于最佳化LMs的学习,这涉及到最大化数据压缩比,即在“LM训练作为无损压缩”的观点下进行优化。 论文地址:https://arxiv.org/abs/2402.17759 主要功能和特点:... 阅读全文

    优惠 新型大语言模型BitNet b1.58

  • 新型大语言模型BitNet b1.58
    AI
  • 这篇论文介绍了一种新型的大语言模型(LLM),称为BitNet b1.58。这种模型的核心特点是使用了1.58位的参数(或权重),这意味着每个参数只有三种可能的值:-1、0和1。这种设计不仅在保持模型性能的同时显著降低了计算成本,还在内存、延迟、吞吐量和能源消耗方面带来了显著的效益。 论文地址:https://arxi... 阅读全文

    优惠 视频作为一种新兴的“语言”,在现实世界决策制定中的应用潜力

  • 视频作为一种新兴的“语言”,在现实世界决策制定中的应用潜力
    AI
  • 这篇论文探讨了视频作为一种新兴的“语言”,在现实世界决策制定中的应用潜力。作者们认为,尽管文本数据在互联网上非常丰富,并且已经在大规模自监督学习中发挥了重要作用,但视频数据同样蕴含着关于物理世界的重要信息,这些信息往往难以用语言来表达。视频不仅包含了丰富的视觉和空间信息,还能捕捉物理动态、行为动作等,这些都是文本难以完... 阅读全文

    优惠 开发者打造苹果专属大模型运行工具Chat with MLX

  • 开发者打造苹果专属大模型运行工具Chat with MLX
    AI
  • 开发者受到英伟达Chat with RTX启发,专为苹果Silicon系列处理器的电脑打造了一款本地大模型运行工具Chat with MLX,此工具自动下载本地模型,并且可以同本地文件进行交互,支持多种语言,包括英语、西班牙语、中文和越南语。该项目的一个关键特点是易于集成,用户可以轻松集成任何HuggingFace和M... 阅读全文

    优惠 大语言模型ChatMusician:不仅能够处理文本生成任务,还能够理解和生成音乐

  • 大语言模型ChatMusician:不仅能够处理文本生成任务,还能够理解和生成音乐
    AI
  • 香港科技大学的研究人员发布论文介绍了一个名为ChatMusician的新型大语言模型(LLM),它不仅能够处理文本生成任务,还能够理解和生成音乐。ChatMusician通过持续预训练和微调LLaMA2模型,使其能够处理与文本兼容的音乐表示——ABC记谱法,将音乐视为一种语言。这个模型能够在不依赖外部多模态神经结构或标... 阅读全文

    优惠 新型视觉质量比较模型Co-Instruct:对多张图片进行开放性的质量比较,提供详细的推理过程,而不仅仅是给出一个简单的质量评分

  • 新型视觉质量比较模型Co-Instruct:对多张图片进行开放性的质量比较,提供详细的推理过程,而不仅仅是给出一个简单的质量评分
    AI
  • 这篇论文介绍了一个名为Co-Instruct的新型视觉质量比较模型。这个模型的目标是能够对多张图片进行开放性的质量比较,提供详细的推理过程,而不仅仅是给出一个简单的质量评分。Co-Instruct模型通过比较设置(例如成对选择、列表排序)来评估图像质量,这种方法可以标准化不同观察者之间的评估标准,并提供更明确的响应。 ... 阅读全文

    优惠 英伟达推出大型多语言语言模型Nemotron-4 15B

  • 英伟达推出大型多语言语言模型Nemotron-4 15B
    AI
  • 英伟达发布论文介绍大型多语言语言模型Nemotron-4 15B,这个模型拥有150亿个参数,是在8万亿个文本标记上训练出来的。Nemotron-4 15B在英语、多语言和编程任务上表现出色,它在7个下游评估领域中的4个领域超过了所有现有的类似规模的开放模型,并在其余领域与领先的开放模型表现相当。特别是,Nemotro... 阅读全文

    优惠 MegaScale:为了在超过10,000个GPU上训练大语言模型而设计

  • MegaScale:为了在超过10,000个GPU上训练大语言模型而设计
    AI
  • 北京大学和字节跳动的研究人员发布论文论文介绍了一个名为MegaScale的系统,它是为了在超过10,000个GPU上训练大语言模型(LLMs)而设计的。大型语言模型是人工智能领域的一种技术,它们能够理解和生成自然语言,比如我们熟悉的GPT-3和PaLM。这些模型在机器翻译、文本摘要和对话代理等领域有着巨大的潜力。 论文... 阅读全文

    优惠 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理

  • 大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理
    AI
  • Google DeepMind 、UCL、 Google Research、特拉维夫大学的研究人员发布论文探讨了大语言模型(LLMs)是否能够在处理复杂提示时潜在地执行多跳推理。多跳推理是指模型在没有直接给出推理所需信息的情况下,能够通过存储在参数中的知识来完成推理任务。例如,当处理“‘Superstition’这首歌... 阅读全文

    优惠 创新的模型融合框架FUSECHAT:减少从头开始训练新模型所需的高昂成本,并利用多个模型的优势

  • 创新的模型融合框架FUSECHAT:减少从头开始训练新模型所需的高昂成本,并利用多个模型的优势
    AI
  • 中山大学的研究人员发布论文介绍了一个名为FUSECHAT的模型,它的目标是将多个现有的大型语言模型(LLMs)融合成一个更强大、更健壮的模型。这种融合方法可以减少从头开始训练新模型所需的高昂成本,并利用多个模型的优势。 GitHub:https://github.com/fanqiwan/FuseLLM 模型地址:ht... 阅读全文

    优惠 通用模型StructLM:通过指令调整和大规模数据集训练,提高了大语言模型在结构化知识接地任务上的性能

  • 通用模型StructLM:通过指令调整和大规模数据集训练,提高了大语言模型在结构化知识接地任务上的性能
    AI
  • 滑铁卢大学、多模式艺术投影研究社区、 早稻田大学、香港科技大学、俄亥俄州立大学、 Harmony.ai、矢量研究所的研究人员推出通用模型StructLM,它旨在提高大语言模型(LLMs)在处理结构化数据(如表格、图形和数据库)方面的能力。尽管LLMs在处理纯文本方面表现出色,但它们在理解和利用结构化数据方面的能力仍有待... 阅读全文

    优惠 Rainbow Teaming:帮助研究人员和开发者更好地理解和改进大语言模型的鲁棒性

  • Rainbow Teaming:帮助研究人员和开发者更好地理解和改进大语言模型的鲁棒性
    AI
  • Meta、伦敦大学学院、牛津大学的研究人员发布论文介绍了一个名为Rainbow Teaming的方法,它是为了生成多样化的对抗性提示(adversarial prompts),以此来测试和增强大语言模型(LLMs)的鲁棒性。对抗性提示是指那些旨在误导模型或利用其弱点的输入,可能导致模型产生不安全、有偏见或不正确的输出。... 阅读全文