当前位置：首页 > 情报 >AI情报>文章详情

媲美GPT-4！Meta发布Llama 3.1，开源AI模型再掀波澜

12个月前 (07-23) | 分类： AI情报 | 热度： 9 ℃

暂无评论

虽然OpenAI名字里有Open，但它对于AI领域的开源贡献远不如Meta、谷歌、阿里巴巴等一众公司，尤其是Meta的Llama系列大语言模型，很多企业和大家甚至个人都在它开源的模型上进行研究，Llama3甚至不输一些闭源模型，而在当地时间7月23日，Meta又发布了 Llama 3.1，此次模型包含了8B、70B、405B 三个型号， Llama 3.1拥有更好的推理能力，128K token 上下文窗口，改进了对于8种语言的支持等多种更新，尤其是 405B模型以及可以在多项任务上可以与GPT-4、Claude 2 和 Gemini Ultra 等领先的闭源模型竞争。

模型类型与适用场景：

8B模型：针对个人用户和小型项目优化，适合在消费级显卡上高效部署，为个人研究和开发提供了便捷的入口。
70B模型：面向大规模AI应用，适用于构建AI原生应用，满足企业级项目对高性能模型的需求。
405B模型：专为合成数据处理设计，适用于将大型语言模型（LLM）用于评审、蒸馏等高级任务，其在常识、数学、多语言翻译等多领域的能力，与闭源领先模型相媲美。

Llama 3.1的亮点：

增强推理能力：优化后的模型在推理任务上表现更佳，为复杂问题的解决提供了更强大的支持。
扩展的上下文窗口：长达128K tokens的上下文窗口，为模型理解更广泛的信息背景提供了可能。
多语言支持：优化后的模型对8种语言的支持更佳，促进了多语言环境下的应用。
量化支持与推理优化：支持FP8、AWQ和GPTQ的量化技术，使得模型在推理阶段更加高效。

值得一提的是，Llama 3.1 405B Instruct模型已上线Hugging Chat，为用户提供了直接体验的机会。此外，Meta还推出了Llama Guard 3和Prompt Guard，前者用于对LLM输入和生成内容进行分类，后者则用于检测提示注入和越狱，进一步提升了模型的安全性和可控性。

官网：https://llama.meta.com
技术报告：https://ai.meta.com/research/publications/the-llama-3-herd-of-models
GitHub：https://github.com/meta-llama/llama-models
模型地址：https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
官方介绍：https://ai.meta.com/blog/meta-llama-3-1
Ollama地址：https://ollama.com/library/llama3.1

媲美GPT-4！Meta发布Llama 3.1，开源AI模型再掀波澜

以下是官方介绍全文翻译：

关键要点：

Meta 致力于推动人工智能的公开可访问性。阅读马克·扎克伯格的信，详细了解开源如何为开发者、Meta 以及全球带来益处。
我们通过最新的模型，将上下文长度扩展至128K，新增八种语言的支持，并包含了Llama 3.1 405B——首个前沿级别的开源AI模型，以此向所有人提供开放智能。
Llama 3.1 405B 独树一帜，具有无与伦比的灵活性、控制力和最先进的功能，可与顶尖的闭源模型媲美。我们的新模型将使社区能够探索新的工作流程，比如合成数据生成和模型蒸馏。
我们正在不断扩展 Llama，提供更多与模型协同工作的组件，包括一个参考系统。我们希望为开发者提供工具，使他们能够设计和实现他们自己的定制智能体和新型智能体行为。我们通过新的安全和安全工具，如 Llama Guard 3 和 Prompt Guard，加强这一点，以帮助负责任地构建。我们还发布了关于 Llama Stack API 的征求意见，这是一个我们希望将使第三方项目更容易利用 Llama 模型的标准接口。
生态系统已经准备就绪，启动第一天即有超过25个合作伙伴参与，包括亚马逊AWS、英伟达、Databricks、Groq、戴尔、Azure和谷歌云等，均提供了服务。
在美国，您可以通过WhatsApp或访问meta.ai，向Llama 3.1 405B提问一个具有挑战性的数学或编程问题来体验它。

直到今天，开源大型语言模型在功能和性能方面大多落后于它们的闭源对手。现在，我们正在引领一个新时代，开源引领着前进的道路。我们公开发布了 Meta Llama 3.1 405B，我们相信这是世界上最大的、功能最强大的公开可用的基础模型。到目前为止，所有 Llama 版本的总下载量超过 3 亿次，我们才刚刚开始。

介绍 Llama 3.1

Llama 3.1 405B标志着首次有公开模型在通用知识、可控性、数学处理、工具运用及多语言翻译等前沿能力上，能与顶尖AI模型并驾齐驱。随着405B模型的释出，我们正站在一个超级加速创新的转折点上，前所未有的发展机遇和探索空间触手可及。我们预期Llama的这一最新迭代将点燃新应用的火花，并催生模型构建的新范式，涵盖从促进小型模型进步的合成数据生成技术，到开源领域前所未见的大规模模型精炼能力。

本次发布还包括了8B与70B模型的升级版本，它们均具备多语言能力，上下文处理长度提升至128K，采用了最先进的工具操作方法，并在整体推理能力上实现了显著增强。这些升级使我们的新模型能够胜任诸如长文摘要、多语种对话系统及编程辅助等高阶应用。此外，我们调整了授权条款，开放了使用Llama模型（含405B）输出以优化其他模型的权限。坚守开源精神，自即日起，我们通过llama.meta.com和Hugging Face向社群开放这些模型的下载，并在广泛的协作平台生态系统上即时开放开发权限。

模型评估

为本次发布，我们对模型性能进行了深入评估，涵盖了超过150项横跨多种语言的基准测试数据集。此外，我们进行了广泛的人类评估，将 Llama 3.1 与竞争模型在现实世界场景中进行比较。初步实验结果显示，我们的旗舰模型在一系列任务上，能与诸如GPT-4、GPT-4o及Claude 3.5 Sonnet等顶尖基础模型相抗衡，展现了卓越的竞争力。另外值得注意的是，我们的轻量级模型同样不甘示弱，它们在与那些参数规模相似的闭源及开源模型的较量中，也显示出了旗鼓相当的性能水平。

媲美GPT-4！Meta发布Llama 3.1，开源AI模型再掀波澜

模型架构

作为迄今为止我们研发的最大规模模型，对Llama 3.1 405B进行训练，涉及超过15万亿个标记，面临巨大挑战。为实现在合理时间内完成此等规模的训练并达到预期效果，我们对整个训练体系进行了深度优化，将模型训练部署在超过1.6万台H100 GPU上，标志着405B成为首个经历如此宏大规模训练的Llama模型。

媲美GPT-4！Meta发布Llama 3.1，开源AI模型再掀波澜

针对这一艰巨任务，我们的设计决策聚焦于确保模型开发流程既可扩展又简单直接。

我们选择了标准的解码器型Transformer 架构，仅作细微调整，而非采用混合专家模型，以此保障训练过程的高度稳定性。
我们引入了迭代式后训练流程，该流程结合了监督式微调、拒绝抽样及直接偏好优化，每一阶段均能产出更高品质的合成数据，持续提升各项能力表现。

相较于前代Llama模型，我们在预训练与后训练中显著提升了数据的数量与质量，包括更精细的预处理与策展流程、更严格的品质保证机制，以及针对后训练数据的高效过滤策略。

按照语言模型的规模法则，我们的新旗舰模型展现出超越同训程小规模模型的性能。此外，我们还利用4050亿参数模型来增进小型模型的后训练质量。

为了支撑如405B这般庞大规模模型的大型生产环境推理，我们对模型进行了量化处理，从16位（BF16）转换为8位（FP8）数值精度，有效减少了计算需求，使之能在单个服务器节点中顺畅运行。

指令和聊天微调

在Llama 3.1 405B的开发中，我们致力于根据用户指令提升模型的辅助性、响应质量及遵循指令的精确度，同时确保高度安全性。我们面临的主要难题在于增强多项功能支持、处理128K长度的上下文窗口，以及应对模型体积的增长。

在后训练阶段，我们通过在预训练模型基础上进行多轮校正步骤，产出最终的聊天模型。这一过程整合了监督微调（SFT）、拒绝抽样（RS）和直接偏好优化（DPO）。我们依赖合成数据生成来产出大部分微调样本，并通过反复迭代不断提升各领域合成数据的质量。同时，我们运用多重数据处理技巧来精选这些合成数据，确保其顶尖质量，从而跨能力领域扩大微调数据集规模。

我们精心调整数据构成，旨在打造在所有能力上均表现出色的模型。例如，即便上下文长度扩展至128K，我们的模型在处理短上下文基准测试时依旧保持高水准表现；在加强安全防护的同时，模型依旧能提供极为有用的解答。

Llama 系统

Llama 系统的设计初衷是作为一套综合性解决方案的一部分运行，该方案能够整合多种组件，涵盖调用外部工具等功能。我们的目标超越了基础模型范畴，旨在赋予开发者接入一个更宏大的系统的能力，使他们能灵活地规划并实现符合个性化需求的产品。这一构想萌芽于去年，当时我们初次尝试将核心LLM之外的其他组件融入体系。

秉承着推动AI领域负责任创新，并助力他人践行相同原则的承诺，我们现推出一个包含多款示例应用的完整参考系统。此系统新添了诸如Llama Guard 3——专为多语言环境设计的安全模型，以及Prompt Guard——用以屏蔽不良提示注入的安全滤镜等组件。所有示例应用均遵循开源原则，鼓励社区在此基础上进行拓展和优化。

当前，Llama系统中各组件的集成尚显零散。因此，我们正携手业界伙伴、初创公司及广大社群，共同细化这些组件间接口的标准化工作。在此背景下，我们在GitHub平台上发布了一份“Llama Stack”请求意见稿（RFC）。Llama Stack定义了一组标准化且具有指导性的接口协议，旨在指导如何构建经典的工具链组件（例如模型微调、合成数据生成）及具备自主代理能力的应用程序。我们期望这些标准能够被生态系统的广泛采纳，进而促进不同部分间的无缝对接。

我们欢迎反馈和改进建议，期待围绕Llama拓展生态系统，为开发者和平台供应商降低门槛。

开放性引领创新潮流

与闭源模型相比，Llama模型的权重开放下载，打破了访问壁垒。开发人员得以根据自身需求和应用场景，对模型进行全方位定制，引入新数据集进行再训练，并实施精细调优。这一举措让广大开发者社群及全球范围内的用户能更深层次地探索和应用生成式AI的潜能。更重要的是，开发者能够在本地服务器、云端环境，乃至个人笔记本上自由部署这些模型，全程无需向Meta共享任何数据信息。

尽管闭源模型常被认为成本效益更高，但Artificial Analysis的测试数据显示，Llama模型实际上提供了业界领先的低成本每令牌服务。正如马克·扎克伯格所强调的，开源不仅让更多人全球范围内受益于AI技术，还防止了技术控制权的集中化，促进技术在全球范围内更加均衡且安全地普及。正因如此，我们坚持在推动AI开放访问成为行业规范的道路上不断前行。

回顾过往，Llama模型已助力社区实现众多创举：从融入Llama技术、在WhatsApp和Messenger平台上推出的AI学习助手，到专为辅助临床决策优化的医疗领域语言模型，再到巴西一家非营利医疗创业公司利用Llama简化并安全地管理患者住院信息交流流程。对于借助开源力量，利用我们最新模型即将激发的创新浪潮，我们满怀期待。

使用 Llama 3.1 405B 构建

在为普通开发者设计的应用场景中，采用405B这样规模的模型是一项艰巨任务。尽管这款模型功能异常强大，但我们明白它对计算资源的高要求及操作的专业门槛不容小觑。倾听社区的声音后，我们深刻理解到，生成式AI开发的范畴远远超出了简单地向模型提供指令。我们旨在赋能每位用户，充分挖掘405B模型的潜力，涵盖以下关键领域：

实时与批量推断
监督式细调
针对特定应用场景的模型评估
持续预训练技术
检索增强生成(RAG)
函数调用集成
合成数据的自动生成

Llama生态系统正为解决这一挑战提供全方位支持。开发者从第一天起就能轻松利用405B模型的所有尖端特性，迅速开启构建进程。不仅如此，生态系统还解锁了高级工作流程，例如简便的合成数据生成方法，以及遵循预设路径进行模型精简的教程，同时还整合了来自亚马逊AWS、英伟达、Databricks等合作伙伴的解决方案，以实现无碍的RAG体验。另外，Groq针对云环境优化了低延迟推断性能，而Dell则在本地部署方案上取得了相似的性能优化成果。

媲美GPT-4！Meta发布Llama 3.1，开源AI模型再掀波澜

我们与vLLM、TensorRT、PyTorch等核心开源项目紧密合作，确保生态体系从启动之初便全面兼容并为生产环境的部署做好充足准备。

我们期待405B模型的发布能进一步激发社区的创新能力，共同推进大规模模型推理与细调技术的简化，为模型精简研究的下一波浪潮奠定基础。

今天就来体验Llama 3.1模型系列吧

我们热切期盼见证社区如何利用这一成果。凭借多语言支持与扩增的上下文长度，构建有益且新颖的体验蕴藏着无限可能。伴随Llama技术堆栈及全新安全工具的推出，我们期待与开源社区携手，在负责任的前提下持续共建。在模型面世前，我们通过一系列措施来识别、评估并减少潜在风险，这包括通过红队对抗演练进行部署前的风险发现，以及实施安全微调。举例来说，我们联合内外部专家进行了广泛的红队测试，以此对模型进行极限挑战，发现并防范任何潜在的非预期用途。（更多关于我们如何负责任地推广Llama 3.1模型系列的信息，请参阅我们的官方博客文章。）

尽管这已是目前我们最大的模型，但我们坚信未来还有更多新领域等待我们去探索，比如开发更适配各种设备的模型尺寸、纳入更多模态类型，以及在代理平台层级加大投入。始终如一，我们满怀期待地静候社区利用这些模型创造出的所有精彩产品和独特体验。

顶 (0 )

踩 (0 )

Llama 3.1 Meta