英伟达推出了 Mistral-NeMo-Minitron 8B,这是一款轻量级语言模型,不仅体积小巧,而且具备与大型模型相当的先进准确性。(来源)
【模型介绍】
- Mistral-NeMo-Minitron 8B 是基于上个月发布的 Mistral NeMo 12B 开放模型的精简版本,该模型可以在 NVIDIA RTX 加速的工作站上运行。
- 性能表现:在多项基准测试中表现出色,包括 AI 聊天机器人、虚拟助手、内容生成器和教育工具等。
- 技术亮点:通过剪枝和蒸馏技术,将原模型的 1200 亿参数减少到 80 亿,同时保持了高准确性。
- 应用领域:适用于资源有限的组织,在降低成本和能耗的同时,易于部署在工作站或笔记本电脑上。
【部署方式】
- 开发者可以:
- 通过 NVIDIA NIM 微服务开始使用该模型,该服务提供标准的 API 接口。
- 从 Hugging Face 下载模型。
- 即将推出的 NVIDIA NIM 可以在几分钟内部署于任何 GPU 加速系统上。
【基准测试】
- Mistral-NeMo-Minitron 8B 在九个流行的基准测试中表现出众,涵盖多种任务类型,如语言理解、常识推理、数学推理、摘要、编程等。
【优化方案】
- AI Foundry 平台 为开发者提供了一整套解决方案,用于创建并定制基础模型为 NIM 微服务。
- 剪枝与蒸馏:开发者可以下载 80 亿参数的模型,并通过 NVIDIA AI Foundry 定制更小、更优化的版本以适应特定应用场景。
【技术优势】
- 计算成本:相比于从头开始训练小模型,剪枝和蒸馏可以节省高达 40 倍的计算成本。
- 安全优势:在边缘设备上本地运行模型可以避免数据传输到服务器,提高安全性。
【其他发布】
- 英伟达同时发布了 Nemotron-Mini-4B-Instruct,这是一款针对 NVIDIA GeForce RTX AI PC 和笔记本电脑优化的小型语言模型,专为低内存使用和快速响应设计。
【体验渠道】
- 通过 ai.nvidia.com 的浏览器或 API 体验这两个模型作为 NIM 微服务。
更多详情,请参考 英伟达技术博客和技术报告。
0条评论