非盈利机构 AllenAI 正式推出完全开源的大语言模型 OLMo,此次开源不仅有模型还包括完整的训练代码、数据集和评估代码,官方宣布通过开放研究来加速语言模型科学的发展。首次发布的内容包括四个参数规模达到 70 亿的语言模型,这些模型具有不同的架构、优化器和训练硬件,另外还有一个参数规模为 10 亿的模型。所有这些模型都在至少 2 万亿个 token 上接受了训练。值得一提是 OLMo 为了打破英伟达 AI 显卡的垄断,特地在 AMD 和 英伟达 AI 显卡上都训练了一次,证明大模型训练是可以用 AMD 的显卡。
模型地址:https://huggingface.co/allenai
官方说明:https://blog.allenai.org/olmo-open-language-model-87ccfc95f580
主要特点 :
- 开放性 :OLMo 模型和框架完全开放,包括训练数据、代码和模型权重,这有助于研究人员和开发者共同进步。
- 多样性 :提供了不同架构、优化器和训练硬件的多个模型变体,以及不同规模的模型(如 1B 和 7B 参数规模)。
- 数据集 :使用了名为 Dolma 的预训练数据集,这是一个包含 3 万亿个标记的多源语料库,涵盖了多种类型的文本数据。
- 评估工具 :提供了 Catwalk 和 Paloma 等评估工具,用于下游任务评估和基于困惑度的评估。
- 环境友好 :在训练过程中考虑了能源消耗和碳足迹,使用了部分可再生能源。
工作原理 :OLMo 模型基于 Transformer 架构,采用了一些改进,如无偏置项、非参数层归一化、SwiGLU 激活函数、旋转位置嵌入(RoPE)等。这些改进旨在提高模型的训练稳定性和性能。模型通过在大规模数据集上进行预训练,学习语言的模式和结构,然后可以通过微调(fine-tuning)来适应特定的任务或领域。
具体应用场景 :OLMo 可以应用于多种自然语言处理(NLP)任务,如文本生成、问答系统、机器翻译、文本摘要等。由于其开放性,它也鼓励研究人员探索新的应用场景,如改进模型的偏见和风险评估,以及开发新的预训练方法。此外,OLMo 的开放性还允许开发者和企业在遵守 Apache 2.0 许可的情况下,将模型集成到他们的产品和服务中。
0条评论