当前位置：首页 > 优惠 >大语言模型>文章详情

非盈利机构 AllenAI 推出完全开源的大语言模型 OLMo：不仅有模型还包括完整的训练代码、数据集和评估代码

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-02)| 分类：大语言模型 | 热度：13 ℃

已关闭评论

非盈利机构 AllenAI 推出完全开源的大语言模型 OLMo：不仅有模型还包括完整的训练代码、数据集和评估代码

非盈利机构 AllenAI 正式推出完全开源的大语言模型 OLMo，此次开源不仅有模型还包括完整的训练代码、数据集和评估代码，官方宣布通过开放研究来加速语言模型科学的发展。首次发布的内容包括四个参数规模达到 70 亿的语言模型，这些模型具有不同的架构、优化器和训练硬件，另外还有一个参数规模为 10 亿的模型。所有这些模型都在至少 2 万亿个 token 上接受了训练。值得一提是 OLMo 为了打破英伟达 AI 显卡的垄断，特地在 AMD 和英伟达 AI 显卡上都训练了一次，证明大模型训练是可以用 AMD 的显卡。

模型地址：https://huggingface.co/allenai

官方说明：https://blog.allenai.org/olmo-open-language-model-87ccfc95f580

主要特点 ：

开放性 ：OLMo 模型和框架完全开放，包括训练数据、代码和模型权重，这有助于研究人员和开发者共同进步。
多样性 ：提供了不同架构、优化器和训练硬件的多个模型变体，以及不同规模的模型（如 1B 和 7B 参数规模）。
数据集 ：使用了名为 Dolma 的预训练数据集，这是一个包含 3 万亿个标记的多源语料库，涵盖了多种类型的文本数据。
评估工具 ：提供了 Catwalk 和 Paloma 等评估工具，用于下游任务评估和基于困惑度的评估。
环境友好 ：在训练过程中考虑了能源消耗和碳足迹，使用了部分可再生能源。

工作原理 ：OLMo 模型基于 Transformer 架构，采用了一些改进，如无偏置项、非参数层归一化、SwiGLU 激活函数、旋转位置嵌入（RoPE）等。这些改进旨在提高模型的训练稳定性和性能。模型通过在大规模数据集上进行预训练，学习语言的模式和结构，然后可以通过微调（fine-tuning）来适应特定的任务或领域。

具体应用场景 ：OLMo 可以应用于多种自然语言处理（NLP）任务，如文本生成、问答系统、机器翻译、文本摘要等。由于其开放性，它也鼓励研究人员探索新的应用场景，如改进模型的偏见和风险评估，以及开发新的预训练方法。此外，OLMo 的开放性还允许开发者和企业在遵守 Apache 2.0 许可的情况下，将模型集成到他们的产品和服务中。

好 (0 )

不好 (0 )

OLMo 大语言模型