当前位置：首页 > 优惠 >大语言模型>文章详情

新型大型双语语言模型系列MAP-Neo：提供高性能和透明度，以推动大语言模型的研究和应用，同时解决现有商业模型不公开透明的问题

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-01)| 分类：大语言模型 | 热度：223 ℃

已关闭评论

新型大型双语语言模型系列MAP-Neo：提供高性能和透明度，以推动大语言模型的研究和应用，同时解决现有商业模型不公开透明的问题

M-A-P、滑铁卢大学武汉人工智能研究中心和01.AI的研究人员推出新型大型双语语言模型系列MAP-Neo，这个模型的主要目标是提供高性能和透明度，以推动大语言模型（LLMs）的研究和应用，同时解决现有商业模型不公开透明的问题。论文还讨论了MAP-Neo对社会的影响，包括促进AI资源的公平获取，以及通过开源创新实践来减轻大型科技公司的数据殖民主义威胁。通过提供这样一个全面开源的模型，MAP-Neo有助于推动LLMs的民主化，使更多人和机构能够访问和利用这些先进的技术。

项目主页：https://map-neo.github.io
GitHub：https://github.com/multimodal-art-projection/MAP-NEO
模型地址：https://huggingface.co/collections/m-a-p/neo-models-66395a5c9662bb58d5d70f04
数据集：https://huggingface.co/datasets/m-a-p/Matrix

主要功能和特点：

高性能双语能力：MAP-Neo是一个拥有7B（即70亿）参数的双语模型，能够处理中英文的任务。
全面开源：与一些只提供模型权重的开源模型不同，MAP-Neo提供了包括预训练语料库、数据清洗流程、检查点以及训练/评估框架在内的所有细节。
透明度：研究者们强调了透明度的重要性，MAP-Neo在设计和训练过程中的所有步骤都是透明的，这有助于社区的进一步研究和开发。
优化的训练策略：论文中提到了NEO Scaling Law，这是一种为提高LLMs扩展性而设计的训练策略。

工作原理：

MAP-Neo的工作原理可以概括为以下几个关键步骤：

数据整理：研究者们构建了一个名为Matrix Data Pile的高质量预训练语料库，它由4.5T（万亿）的高质token组成。
模型架构：MAP-Neo基于transformer解码器架构，采用了一些增强性能的技术，如Multi-Query Attention、RoPE Embeddings和RMSNorm。
预训练：模型通过两个阶段的预训练来获得通用能力，包括基础阶段和衰减阶段，后者专注于通过高质量数据来提高内容的可靠性。
对齐：通过监督式微调（Supervised Fine-tuning）和迭代的直接偏好优化（Iterative DPO）来进一步对模型进行优化，使其更好地符合人类的行为和偏好。