当前位置：首页 > 优惠 >大语言模型>文章详情

A21推出新型大型语言模型Jamba：结合了Transformer和Mamba（一种状态空间模型）以及专家混合（Mixture-of-Experts，MoE）技术

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-01)| 分类：大语言模型 | 热度：405 ℃

已关闭评论

A21推出新型大型语言模型Jamba：结合了Transformer和Mamba（一种状态空间模型）以及专家混合（Mixture-of-Experts，MoE）技术

A21推出新型大型语言模型Jamba，它基于一种创新的混合架构，结合了Transformer和Mamba（一种状态空间模型）以及专家混合（Mixture-of-Experts，MoE）技术。Jamba的设计旨在充分利用这三种技术的优势，以提高性能、提升吞吐量，并保持较低的内存占用。例如，想象一个场景，用户需要一个AI助手来阅读和理解一份长篇科学报告，并回答其中提到的复杂问题。使用Jamba模型，助手可以有效地处理和记忆报告中的大量信息，并提供准确的回答，即使这些问题涉及报告中非常具体的细节。由于Jamba的高吞吐量和低内存占用，它可以在有限的硬件资源上运行，使得这种类型的应用更加可行和高效。

模型地址：https://huggingface.co/ai21labs/Jamba-v0.1

主要功能和特点：

混合架构：Jamba结合了Transformer的注意力机制和Mamba的状态空间表示，以及MoE的参数稀疏性，以实现高效的长序列建模。
高效性能：Jamba在保持较小内存占用的同时，提供了与标准Transformer模型相当的性能。
长序列处理：Jamba能够处理长达256K个token的上下文，这在生产级公开模型中是最长的支持长度。
灵活性：Jamba的架构允许根据不同的硬件和性能需求进行配置，提供了在活跃参数数量和总参数数量之间平衡的灵活性。

工作原理： Jamba模型由多个Jamba块组成，每个块包含一定比例的Transformer层和Mamba层。在这些层中，部分多层感知机（MLP）被MoE层替代，以增加模型容量。MoE层允许模型在每次前向传播中选择一组“专家”，这些专家是模型参数的子集，可以并行处理数据。这种混合架构使得Jamba在处理长序列时更加高效，同时保持了Transformer的高吞吐量和Mamba的低内存占用。

具体应用场景：