苹果推出高效能DCLM模型,挑战小型语言模型市场

| 分类: AI情报 | 热度: 66 ℃

苹果公司近期在自然语言处理(NLP)领域再次展示了其研发实力,推出了两款新的语言模型——DCLM-7B和DCLM-1B,这两款模型分别拥有69亿和14亿参数,旨在提供与现有顶级模型相当甚至更优秀的性能,同时显著降低训练所需的算力资源。以下是关于这两款模型的详细信息:

DCLM-7B

  • 参数量:69亿参数。
  • 训练数据:使用2.6兆字符(token)的数据集进行训练。
  • 性能对比:在多语理解测试MMLU中,DCLM-7B的性能与MAP-Neo相当,但其训练所需的计算资源减少了40%。与私有模型如Mistral-7B-v0.3、Google Gemma相比,DCLM-7B的准确性得分为64%,略低于Llama 3-8B的66%,但其模型耗能低了6.6倍。
  • 模型地址:https://huggingface.co/apple/DCLM-7B

DCLM-1B

  • 参数量:14亿参数。
  • 性能对比:在Alpaca bench测试中,DCLM-1B的性能优于Hugging Face上周公布的小模型SmolLM。
  • 模型地址:https://huggingface.co/TRI-ML/DCLM-1B

技术背景与合作

这两款模型的开发团队来自苹果的DCLM(DataComp for Language Models)项目,成员不仅来自苹果内部,还包括华盛顿大学、以色列台拉维夫大学及丰田研究院的研究人员,这表明苹果在NLP领域的研发不仅限于公司内部,还积极与学术界和产业界合作。

  • 项目主页:https://www.datacomp.ai/dclm
  • GitHub:https://github.com/mlfoundations/dclm
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论