苹果公司近期在自然语言处理(NLP)领域再次展示了其研发实力,推出了两款新的语言模型——DCLM-7B和DCLM-1B,这两款模型分别拥有69亿和14亿参数,旨在提供与现有顶级模型相当甚至更优秀的性能,同时显著降低训练所需的算力资源。以下是关于这两款模型的详细信息:
DCLM-7B
- 参数量:69亿参数。
- 训练数据:使用2.6兆字符(token)的数据集进行训练。
- 性能对比:在多语理解测试MMLU中,DCLM-7B的性能与MAP-Neo相当,但其训练所需的计算资源减少了40%。与私有模型如Mistral-7B-v0.3、Google Gemma相比,DCLM-7B的准确性得分为64%,略低于Llama 3-8B的66%,但其模型耗能低了6.6倍。
- 模型地址:https://huggingface.co/apple/DCLM-7B
DCLM-1B
- 参数量:14亿参数。
- 性能对比:在Alpaca bench测试中,DCLM-1B的性能优于Hugging Face上周公布的小模型SmolLM。
- 模型地址:https://huggingface.co/TRI-ML/DCLM-1B
技术背景与合作
这两款模型的开发团队来自苹果的DCLM(DataComp for Language Models)项目,成员不仅来自苹果内部,还包括华盛顿大学、以色列台拉维夫大学及丰田研究院的研究人员,这表明苹果在NLP领域的研发不仅限于公司内部,还积极与学术界和产业界合作。
- 项目主页:https://www.datacomp.ai/dclm
- GitHub:https://github.com/mlfoundations/dclm
0条评论