当前位置：首页 > 优惠 >大语言模型>文章详情

超级重磅！Meta发布开源大语言模型Llama 3系列

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-19)| 分类：大语言模型 | 热度：12 ℃

已关闭评论

说到开源大语言模型，最重要的就是Meta的Llama系列，尤其是去年发布的Llama2，成了很多大学、研究机构、甚至初创公司研究及开发大语言模型的基础。大家一直都在期待Meta发布Llama 3，原本预计会在今年6月发布，但Meta在当地时间4月18日就无预警的发布了Llama 3系列大语言模型，目前发布的有Llama 3 8B和Llama 3 70B两个型号，还有经过预训练和精调，特别优化用于文本对话场景的Llama 3 8B-chat和Llama 3 70B-chat版本，而最大参数超过400B还在训练中，训练完成后将会发布，还会有多模态模型，在官方的测试中70B全面超越Gemini Pro 1.5以及Claude3 Sonnet。

官网地址：https://llama.meta.com
官方文档：https://llama.meta.com/docs/get-started
GitHub：https://github.com/meta-llama/llama3
模型地址：https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

目前已经可以Hugging Face推出了旗下AI聊天应用HuggingChat上使用llama-3-70B-Instruct模型，而Hugging Chat已经推出 iOS版，大家可以方便的在手机上使用各种开源大模型，直接体验Llama 3。

HuggingChat地址：https://huggingface.co/chat
iOS版：https://apps.apple.com/us/app/huggingchat/id6476778843

超级重磅！Meta发布开源大语言模型Llama 3系列

以下是官方介绍全文翻译：

要点：

今天，我们正式推出了Meta Llama 3，这是我们最先进的开源大型语言模型的新篇章。
Llama 3模型即将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM以及Snowflake等平台上亮相，并得到了AMD、AWS、戴尔、英特尔、英伟达和高通等硬件平台提供商的全力支持。
我们始终致力于以负责任的态度开发Llama 3，同时提供各种资源，以指导其他开发者如何负责任地使用它。为此，我们推出了新的信任和安全工具，包括Llama Guard 2、Code Shield以及CyberSec Eval 2。
展望未来，我们计划在接下来的几个月内引入更多新功能、更长的上下文窗口、更多模型尺寸选择以及性能优化。同时，我们也将分享关于Llama 3的详细研究论文。
借助Llama 3技术，Meta AI现已成为世界上领先的AI助手之一。它能够增强您的智能、减轻您的工作负担，帮助您学习新知识、高效完成任务、创造精彩内容，并让您与他人更好地连接，充分享受每一刻的美好。

今天，我们非常高兴地与大家分享下一代Llama的前两个模型——Meta Llama 3，现已广泛开放使用。此次发布的模型包括预训练和指令微调的语言模型，分别拥有80亿和700亿参数，可适用于广泛的使用场景。新一代Llama在多种行业基准测试中展现出卓越性能，并引入了新功能，包括推理能力的显著提升。我们坚信，这两款模型是目前同类产品中最为出色的开源模型。

我们始终秉持开放的理念，将Llama 3交到社区手中，希望能够激发AI领域从应用到开发工具、评估到推理优化等各层面的创新浪潮。我们迫切期待看到您基于Llama 3创造出的精彩成果，并热切期待您的反馈。

关于Llama 3的目标

Llama 3的目标是构建与当前最顶尖的专有模型相媲美的开源模型。我们倾听开发者的声音，不断优化Llama 3的实用性，同时继续引领LLM的负责任使用和部署。我们秉持开源精神，尽早并频繁地发布模型，让社区在模型开发过程中就能获取到这些模型。今天发布的基于文本的模型是Llama 3模型系列中的首批产品。未来，我们将致力于使Llama 3支持多语言和多模态功能，增加上下文长度，并持续提高推理和编码等核心LLM能力的整体性能。

最先进的性能

我们全新的80亿（8B）和700亿（70B）参数的Llama 3模型在性能上相较于Llama 2实现了巨大飞跃，并确立了这些规模下大语言模型的新标杆。由于我们在预训练和后训练环节进行了改进，我们的预训练和指令微调模型已成为当前80亿和700亿参数规模下最出色的模型。后训练程序的改进显著降低了错误拒绝率，提升了对齐性，并丰富了模型响应的多样性。此外，我们还看到模型在推理、代码生成和指令遵循等方面的能力得到了显著提升，使Llama 3更加易于操控。

超级重磅！Meta发布开源大语言模型Llama 3系列

在开发Llama 3的过程中，我们不仅关注了模型在标准基准测试上的表现，还致力于优化其在实际应用场景中的性能。为此，我们开发了一套全新的高质量人工评估集，包含1800个提示，覆盖了12个关键用例：征求建议、头脑风暴、分类、封闭式问题回答、编码、创造性写作、信息提取、角色扮演、开放式问题回答、推理、文本重写和摘要。为确保评估的公正性，防止模型意外过拟合于这个评估集，我们甚至限制了建模团队的访问权限。下面的图表展示了我们在这些类别和提示上的人工评估结果与Claude Sonnet、Mistral Medium和GPT-3.5的对比汇总。

超级重磅！Meta发布开源大语言模型Llama 3系列

根据这个评估集，人类标注者的偏好排名充分展现了我们的700亿指令遵循模型在现实应用场景中，与同等规模的竞品模型相比所展现出的卓越性能。

同时，我们的预训练模型也刷新了这些规模下LLM模型的新纪录。

超级重磅！Meta发布开源大语言模型Llama 3系列

在开发出色的语言模型时，我们坚信创新、扩大规模以及简化优化至关重要。在Llama 3项目的整个过程中，我们始终秉持这一设计理念，并聚焦于四个核心要素：模型架构、预训练数据、预训练规模的扩大以及指令微调。

模型架构

我们遵循设计理念，在Llama 3中选择了相对标准的仅解码器Transformer架构。相较于Llama 2，我们进行了多项关键性改进。Llama 3采用了包含128K个标记的标记器，使语言编码更加高效，从而大幅提升了模型性能。为了提高Llama 3模型的推理效率，我们在80亿和700亿规模的模型中均引入了分组查询注意力（GQA）机制。此外，我们在包含8,192个标记的序列上进行模型训练，同时采用掩码技术确保自注意力不会跨越文档边界。

训练数据

为了训练出卓越的语言模型，构建一个庞大且高质量的训练数据集至关重要。我们严格遵循设计原则，在预训练数据方面进行了大量投入。Llama 3在超过15万亿个标记上进行了预训练，这些标记均来自公开可用的资源。与Llama 2相比，我们的训练数据集规模扩大了七倍，且包含的代码量是其四倍之多。为了应对未来的多语言应用场景，Llama 3预训练数据集中超过5%的内容为高质量的非英语数据，涵盖超过30种语言。不过，需要指出的是，我们并不期待这些非英语语言能达到与英语相同的性能水平。

为确保Llama 3在最高质量的数据上进行训练，我们开发了一系列数据过滤管道。这些管道包括启发式过滤器、NSFW过滤器、语义去重策略以及文本分类器，用于预测数据质量。有趣的是，我们发现Llama的前几代模型在识别高质量数据方面表现相当出色，因此，我们利用Llama 2生成了用于驱动Llama 3的文本质量分类器的训练数据。

此外，我们还进行了广泛的实验，以探索在最终预训练数据集中混合来自不同来源数据的最佳策略。这些实验帮助我们选出了一种数据混合方式，确保了Llama 3在包括常识问题、STEM、编程、历史知识等多种应用场景中都能展现出卓越的性能。

扩大预训练规模

为了充分利用Llama 3模型中的预训练数据，我们投入了大量精力来扩大预训练规模。具体来说，我们针对下游基准评估制定了一系列详细的缩放规律。这些规律不仅帮助我们选定了最佳的数据混合方式，还让我们能够做出明智的决策，以优化训练计算能力。值得一提的是，缩放规律使我们在实际训练模型之前，就能预测模型在关键任务上的性能表现，如代码生成在HumanEval基准上的评估结果。这为我们确保最终模型在各种用例和功能上的卓越表现提供了有力支持。

在Llama 3的开发过程中，我们对缩放行为进行了多项新的观察。例如，尽管根据Chinchilla理论，80亿参数模型所需的最佳训练计算量对应于约2000亿个标记，但我们发现，即使模型在数量级更多的数据上进行训练后，其性能仍然会继续提升。无论是我们的80亿参数模型还是700亿参数模型，在训练了高达15万亿个标记后，它们的性能都呈现出对数线性的提升趋势。尽管更大的模型可以通过较少的训练计算量达到这些较小模型的性能，但由于小模型在推理时的高效性，我们通常更偏向于选择使用它们。

训练我们最大的Llama 3模型时，我们结合了三种并行化技术：数据并行化、模型并行化和流水线并行化。在同时使用16000个GPU进行训练时，我们最高效的实现方案每个GPU的计算利用率达到了400 TFLOPS以上。我们利用两个定制的24000 GPU集群进行训练运行。为了最大化GPU的在线时间，我们开发了一种先进的全新训练堆栈，能够自动检测、处理和维护错误。同时，我们还显著提升了硬件的可靠性，优化了静默数据损坏的检测机制，并开发了新的可扩展存储系统，大幅减少了检查点和回滚的开销。这些改进使得整体有效训练时间超过了95%。综合这些改进，Llama 3的训练效率相比Llama 2提升了近三倍。

指令微调

为了充分释放我们预训练模型在聊天用例中的潜力，我们对指令微调方法也进行了创新。我们的后训练方法是监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）的综合应用。在SFT中使用的提示质量，以及在PPO和DPO中应用的偏好排名，对模型的对齐性能具有重要影响。我们在模型质量方面的显著改进，得益于对这些数据的精心筛选以及对人类标注者提供的标注进行了多轮质量保证。

通过PPO和DPO学习偏好排名，Llama 3在推理和编码任务上的性能得到了显著提升。我们发现，当向模型提出一个难以回答的推理问题时，模型有时会生成正确的推理过程：模型知道如何得出正确答案，但不知道如何选择它。对偏好排名的训练教会了模型如何选择正确答案。

构建Llama 3

我们的愿景是赋予开发者定制Llama 3的能力，以支持相关的用例，并简化采纳最佳实践的过程，从而优化开放的生态系统。在这次发布中，我们提供了一系列新的信任和安全工具，包括结合了Llama Guard 2和Cybersec Eval 2的更新组件，以及新引入的Code Shield——一个用于过滤LLM生成的不安全代码的推理时防护栏。

此外，我们还与torchtune合作开发了Llama 3。torchtune是一个全新的PyTorch原生库，它使得大语言模型的创建、微调和测试变得更加简单。torchtune提供了完全基于PyTorch编写的内存高效且可定制的训练方案。这个库与Hugging Face、Weights & Biases以及EleutherAI等热门平台无缝集成，并支持Executorch，使得高效推理能够在各种移动和边缘设备上轻松运行。无论是进行提示工程还是将Llama 3与LangChain结合使用，我们都提供了详尽的入门指南，从下载Llama 3开始，一路指引您完成在您的生成式AI应用中的大规模部署。

系统级责任方法

在设计Llama 3模型时，我们力求其发挥最大效用，并确保以业界领先的方式负责任地部署。为实现这一目标，我们采用了新的系统级方法，推动Llama的负责任开发与部署。我们将Llama模型视为更广泛系统中的一个关键组成部分，让开发者掌控全局。Llama模型将作为开发者设计系统的基石，满足其独特的最终目标。

超级重磅！Meta发布开源大语言模型Llama 3系列

指令微调在确保模型安全性方面发挥着至关重要的作用。我们的指令微调模型已经通过内部和外部的严格红队测试。红队测试方法结合了人类专家和自动化手段，生成对抗性提示，以测试模型是否会产生问题响应。例如，我们进行了全面的测试，以评估模型在化学、生物、网络安全和其他风险领域的误用风险。这些努力是不断迭代的，旨在指导即将发布的模型进行安全微调。您可以在模型卡片中详细了解我们在这方面的努力。

Llama Guard模型旨在奠定提示和响应安全的基础，并可根据应用需求轻松微调，以构建新的分类体系。作为起点，新的Llama Guard 2采用了近期公布的MLCommons分类体系，以推动这一关键领域行业标准的形成。此外，CyberSecEval 2在原有基础上进行了扩展，增加了对LLM滥用代码解释器、具备攻击性网络安全能力以及易受提示注入攻击倾向的评估（更多详情请参阅我们的技术论文）。最后，我们推出了Code Shield，它支持对LLM生成的不安全代码进行推理时过滤，从而降低不安全代码建议的风险、防止代码解释器被滥用，并确保命令的安全执行。

鉴于生成式AI领域的迅猛发展，我们坚信开放的方法是汇聚生态系统力量、减轻潜在危害的重要途径。为此，我们正在更新《负责任使用指南（RUG）》，该指南为使用LLM进行负责任开发提供了详尽指导。正如RUG所述，我们建议根据适用于特定应用的内容指南，对所有输入和输出进行审查和过滤。此外，许多云服务提供商提供了内容审核API和其他工具，以支持负责任的部署，我们鼓励开发者考虑采用这些选项。

大规模部署Llama 3

Llama 3即将在各大主流平台上线，包括云提供商和模型API提供商等。届时，Llama 3将无处不在。

我们的基准测试结果显示，分词器大幅提升了令牌效率，相比Llama 2，令牌数量减少了高达15%。此外，Group Query Attention (GQA) 也已加入到Llama 3 8B版本中。尽管该模型的参数数量比Llama 2 7B多出了10亿个，但由于分词器效率的提升和GQA的加入，其推理效率仍然与Llama 2 7B保持相当。

要了解如何充分利用这些功能，请查阅Llama Recipes，其中包含我们所有的开源代码，可用于从微调、部署到模型评估的各个环节。

Llama 3的未来展望

Llama 3 8B和70B模型仅仅是我们为Llama 3系列规划的开端，更多精彩将陆续呈现。

我们最庞大的模型拥有超过4000亿个参数，尽管它们仍在紧张的训练中，但我们的团队对其发展趋势充满信心。在接下来的几个月里，我们将陆续推出具备多项全新功能的模型，包括多模态能力、多语言对话支持、更广阔的上下文窗口，以及更强大的整体性能。一旦Llama 3的训练圆满完成，我们还将发布一篇详尽的研究论文。

为了让您提前领略这些模型在训练过程中的最新成果，我们决定分享一些我们最大型LLM模型的发展趋势快照。请注意，这些数据基于Llama 3的早期检查点，该模型仍在训练中，因此这些功能目前并不包含在已发布的模型中。

超级重磅！Meta发布开源大语言模型Llama 3系列

我们致力于推动开放AI生态系统的持续发展，并以负责任的态度发布我们的模型。我们坚信，开放性将促进更好、更安全的产品诞生，加速创新步伐，并助力整体市场的健康发展。这对Meta来说是有益的，对整个社会也同样如此。在Llama 3的推广上，我们采取以社区为核心的策略，从今天开始，这些模型已经在领先的云、托管和硬件平台上架，未来还将有更多平台陆续加入。