Mistral AI与英伟达合作推出12B模型Mistral NeMo:提供了高达128k Tokens的大型上下文窗口

| 分类: AI情报 | 热度: 43 ℃

法国AI初创公司 Mistral AI与英伟达合作构建的12B模型Mistral NeMo发布。Mistral NeMo提供了高达128k Tokens的大型上下文窗口。其推理能力、世界知识掌握和编码准确性在同类大小的模型中处于最前沿。由于它依赖于标准架构,Mistral NeMo易于使用,并且可以作为任何使用Mistral 7B系统的即插即用替换。

Mistral AI已经在Apache 2.0许可下发布了预训练的基础和指令调整模型,以促进研究人员和企业采用。Mistral NeMo进行了量化感知训练,实现了FP8推理而没有任何性能损失。

下表比较了Mistral NeMo基础模型与两个最近的开源预训练模型Gemma 2 9B和Llama 3 8B的准确性。

Mistral AI与英伟达合作推出12B模型Mistral NeMo:提供了高达128k Tokens的大型上下文窗口

面向大众的多语言模型

该模型旨在满足全球多语言应用的需求。它经过函数调用训练,拥有大型上下文窗口,在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语等方面表现尤为出色。这是将前沿AI模型带给所有语言使用者的新步伐,涵盖了构成人类文化的所有语言。

Mistral AI与英伟达合作推出12B模型Mistral NeMo:提供了高达128k Tokens的大型上下文窗口

更高效的分词器Tekken

Mistral NeMo使用一种新的分词器Tekken,该分词器基于Tiktoken,经过超过100种语言的训练,并且比以往Mistral模型中使用的SentencePiece分词器更有效地压缩自然语言文本和源代码。特别是,在压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语方面,它的效率提高了约30%。它在压缩韩语和阿拉伯语方面的效率分别是原来的2倍和3倍。与Llama 3分词器相比,Tekken在压缩约85%的所有语言文本方面表现更佳。

Mistral AI与英伟达合作推出12B模型Mistral NeMo:提供了高达128k Tokens的大型上下文窗口

指令微调

Mistral NeMo经历了先进的微调和对齐阶段。与Mistral 7B相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现得更好。

Mistral AI与英伟达合作推出12B模型Mistral NeMo:提供了高达128k Tokens的大型上下文窗口

链接

HuggingFace上托管了基础和指令调整模型的权重。您现在可以使用mistral-inference试用Mistral NeMo,并使用mistral-finetune进行调整。Mistral NeMo在la Plateforme上以open-mistral-nemo-2407的名称展示。该模型还被打包在NVIDIA NIM推理微服务容器中,可在ai.nvidia.com获取。

  • 基础模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
  • 微调模型:https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论