当前位置：首页 > 优惠 >大语言模型>文章详情

Zyphra推出新型混合模型Zamba：结合了SSM和Transformer的特点，提供与大型开放模型相媲美的性能，同时在参数成本上保持较低的水平

推荐人：暴走AI| 商城: AI | 1年前 (2024-05-28)| 分类：大语言模型 | 热度：290 ℃

已关闭评论

Zyphra推出新型混合模型Zamba：结合了SSM和Transformer的特点，提供与大型开放模型相媲美的性能，同时在参数成本上保持较低的水平

Zyphra推出新型人工智能语言模型Zamba，Zamba是一个7亿参数（7B SSM）的混合模型，它结合了SSM（State Space Model，状态空间模型）和Transformer的特点，旨在提供与大型开放模型相媲美的性能，同时在参数成本上保持较低的水平。论文还讨论了Zamba与其他模型的比较，以及它在不同基准测试中的表现。尽管Zamba在某些方面（如代码生成）可能不如一些领先的模型，但它在推理速度和内存使用方面的优势使其成为一个有吸引力的选择，尤其是在需要处理大量数据或在资源受限环境中运行的场景中。

主要功能和特点：

混合架构：Zamba采用了独特的混合架构，将Mamba作为骨干网络，并引入了一个共享的注意力模块。这种设计旨在以最小的参数成本获得注意力机制的好处。
高效的推理速度：由于其架构的优势，Zamba在推理时比同等规模的Transformer模型要快得多，这对于需要快速响应的应用场景非常有用。
内存使用优化：Zamba在生成长序列时所需的内存要少得多，这使得它在资源受限的环境中更为实用。
两阶段预训练：Zamba通过两个阶段进行预训练，第一阶段基于公开的网络数据集，第二阶段则通过在高质量指导和合成数据集上进行“退火”（annealing），并采用快速的学习率衰减。
开源：研究团队开源了Zamba的权重和所有检查点，这有助于学术界和开发者进一步研究和应用该模型。

工作原理：

Zamba的核心是Mamba骨干网络，它利用线性动态系统替代了Transformer中的注意力操作，这样可以以线性时间复杂度和常数内存复杂度生成序列。为了增强模型的表达能力，Zamba在Mamba的基础上加入了一个全局共享的自注意力层（GSA），这个层在网络中多次使用，但只使用一套参数，从而减少了模型的内存需求。