优惠如何优化语言模型（LMs）的学习过程，目的是减少达到高性能所需的训练步骤

AI

推荐人：暴走AI 标签：语言模型 AI

1年前 (2024-02-28)AI

来自微软的研究人员发布论文探讨了如何优化语言模型（LMs）的学习过程，目的是减少达到高性能所需的训练步骤。研究者们提出了一种理论，用于最佳化LMs的学习，这涉及到最大化数据压缩比，即在“LM训练作为无损压缩”的观点下进行优化。论文地址：https://arxiv.org/abs/2402.17759 主要功能和特点：... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型大语言模型BitNet b1.58

AI

推荐人：暴走AI 标签：BitNet b1.58 AI

1年前 (2024-02-28)AI

这篇论文介绍了一种新型的大语言模型（LLM），称为BitNet b1.58。这种模型的核心特点是使用了1.58位的参数（或权重），这意味着每个参数只有三种可能的值：-1、0和1。这种设计不仅在保持模型性能的同时显著降低了计算成本，还在内存、延迟、吞吐量和能源消耗方面带来了显著的效益。论文地址：https://arxi... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠视频作为一种新兴的“语言”，在现实世界决策制定中的应用潜力

AI

推荐人：暴走AI 标签：视频 AI

1年前 (2024-02-28)AI

这篇论文探讨了视频作为一种新兴的“语言”，在现实世界决策制定中的应用潜力。作者们认为，尽管文本数据在互联网上非常丰富，并且已经在大规模自监督学习中发挥了重要作用，但视频数据同样蕴含着关于物理世界的重要信息，这些信息往往难以用语言来表达。视频不仅包含了丰富的视觉和空间信息，还能捕捉物理动态、行为动作等，这些都是文本难以完... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开发者打造苹果专属大模型运行工具Chat with MLX

AI

推荐人：暴走AI 标签：Chat with MLX AI

1年前 (2024-02-28)AI

开发者受到英伟达Chat with RTX启发，专为苹果Silicon系列处理器的电脑打造了一款本地大模型运行工具Chat with MLX，此工具自动下载本地模型，并且可以同本地文件进行交互，支持多种语言，包括英语、西班牙语、中文和越南语。该项目的一个关键特点是易于集成，用户可以轻松集成任何HuggingFace和M... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠大语言模型ChatMusician：不仅能够处理文本生成任务，还能够理解和生成音乐

AI

推荐人：暴走AI 标签：ChatMusician AI

1年前 (2024-02-27)AI

香港科技大学的研究人员发布论文介绍了一个名为ChatMusician的新型大语言模型（LLM），它不仅能够处理文本生成任务，还能够理解和生成音乐。ChatMusician通过持续预训练和微调LLaMA2模型，使其能够处理与文本兼容的音乐表示——ABC记谱法，将音乐视为一种语言。这个模型能够在不依赖外部多模态神经结构或标... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型视觉质量比较模型Co-Instruct：对多张图片进行开放性的质量比较，提供详细的推理过程，而不仅仅是给出一个简单的质量评分

AI

推荐人：暴走AI 标签：Co-Instruct 视觉质量比较模型 AI

1年前 (2024-02-27)AI

这篇论文介绍了一个名为Co-Instruct的新型视觉质量比较模型。这个模型的目标是能够对多张图片进行开放性的质量比较，提供详细的推理过程，而不仅仅是给出一个简单的质量评分。Co-Instruct模型通过比较设置（例如成对选择、列表排序）来评估图像质量，这种方法可以标准化不同观察者之间的评估标准，并提供更明确的响应。 ... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠英伟达推出大型多语言语言模型Nemotron-4 15B

AI

推荐人：暴走AI 标签：Nemotron-4 15B 英伟达 AI

1年前 (2024-02-27)AI

英伟达发布论文介绍大型多语言语言模型Nemotron-4 15B，这个模型拥有150亿个参数，是在8万亿个文本标记上训练出来的。Nemotron-4 15B在英语、多语言和编程任务上表现出色，它在7个下游评估领域中的4个领域超过了所有现有的类似规模的开放模型，并在其余领域与领先的开放模型表现相当。特别是，Nemotro... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MegaScale：为了在超过10,000个GPU上训练大语言模型而设计

AI

推荐人：暴走AI 标签：MegaScale AI

1年前 (2024-02-27)AI

北京大学和字节跳动的研究人员发布论文论文介绍了一个名为MegaScale的系统，它是为了在超过10,000个GPU上训练大语言模型（LLMs）而设计的。大型语言模型是人工智能领域的一种技术，它们能够理解和生成自然语言，比如我们熟悉的GPT-3和PaLM。这些模型在机器翻译、文本摘要和对话代理等领域有着巨大的潜力。论文... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠大语言模型（LLMs）是否能够在处理复杂提示时潜在地执行多跳推理

AI

推荐人：暴走AI 标签：大语言模型 AI

1年前 (2024-02-27)AI

Google DeepMind 、UCL、 Google Research、特拉维夫大学的研究人员发布论文探讨了大语言模型（LLMs）是否能够在处理复杂提示时潜在地执行多跳推理。多跳推理是指模型在没有直接给出推理所需信息的情况下，能够通过存储在参数中的知识来完成推理任务。例如，当处理“‘Superstition’这首歌... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠创新的模型融合框架FUSECHAT：减少从头开始训练新模型所需的高昂成本，并利用多个模型的优势

AI

推荐人：暴走AI 标签：FUSECHAT 大模型 AI

1年前 (2024-02-27)AI

中山大学的研究人员发布论文介绍了一个名为FUSECHAT的模型，它的目标是将多个现有的大型语言模型（LLMs）融合成一个更强大、更健壮的模型。这种融合方法可以减少从头开始训练新模型所需的高昂成本，并利用多个模型的优势。 GitHub：https://github.com/fanqiwan/FuseLLM 模型地址：ht... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠通用模型StructLM：通过指令调整和大规模数据集训练，提高了大语言模型在结构化知识接地任务上的性能

AI

推荐人：暴走AI 标签：StructLM 大语言模型 AI

1年前 (2024-02-27)AI

滑铁卢大学、多模式艺术投影研究社区、早稻田大学、香港科技大学、俄亥俄州立大学、 Harmony.ai、矢量研究所的研究人员推出通用模型StructLM，它旨在提高大语言模型（LLMs）在处理结构化数据（如表格、图形和数据库）方面的能力。尽管LLMs在处理纯文本方面表现出色，但它们在理解和利用结构化数据方面的能力仍有待... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Rainbow Teaming：帮助研究人员和开发者更好地理解和改进大语言模型的鲁棒性

AI

推荐人：暴走AI 标签：Rainbow Teaming 大语言模型 AI

1年前 (2024-02-27)AI

Meta、伦敦大学学院、牛津大学的研究人员发布论文介绍了一个名为Rainbow Teaming的方法，它是为了生成多样化的对抗性提示（adversarial prompts），以此来测试和增强大语言模型（LLMs）的鲁棒性。对抗性提示是指那些旨在误导模型或利用其弱点的输入，可能导致模型产生不安全、有偏见或不正确的输出。... 阅读全文

直达链接好 0 不好 0 已关闭评论