Zyphra 在 8 月 27 日宣布推出了 Zamba2-mini 1.2B 模型,该模型拥有 12 亿参数,是一款端侧 SOTA(State-of-the-Art)小型语言模型。在 4bit 量化条件下,该模型的内存占用低于 700MB。Zyphra 已承诺将 Zamba2-mini 作为 Apache 2.0 许可下的开源模型提供给社区。(来源)
性能对比
- 与大模型媲美:Zamba2-mini 1.2B 的性能与谷歌的 Gemma-2B、Huggingface 的 SmolLM-1.7B、苹果的 OpenELM-1.1B 和微软的 Phi-1.5 等更大的模型相当。
- 推理任务表现:与 Phi3-3.8B 等模型相比,Zamba2-mini 的首次令牌时间(从输入到输出第一个 token 的延迟)减少了一半,内存占用降低了 27%。
技术亮点
- 高度优化的架构:融合了不同神经网络设计的优势,既保持了大型密集变压器的高质量输出,又实现了更小模型的计算和内存效率。
- 双共享注意力层:相较于前代 Zamba1,Zamba2-mini 集成了两个共享注意力层,增强了模型在不同深度保持信息的能力,提升了整体性能。
- 旋转位置嵌入:在共享注意力层中加入旋转位置嵌入,进一步提高了模型性能。
预训练数据集
- 海量数据集:Zamba2-mini 在一个包含三万亿个 token 的数据集上进行了预训练,数据来源于 Zyda 和其他公开来源。
- 严格的数据处理:数据集经过严格的过滤和去重处理,以确保训练数据的质量。在退火阶段,进一步在 1000 亿个高质量 tokens 上进行了训练。
0条评论