AI21实验室推出大语言模型Jamba-1.5系列

分类:大语言模型 | 热度:61 ℃

AI21实验室推出大语言模型Jamba-1.5系列,它们基于Jamba架构,融合了Transformer和Mamba模型的优势,专门针对指令调优进行了优化。Jamba-1.5有两个版本:Jamba-1.5-Large(94亿活跃参数)和Jamba-1.5-Mini(12亿活跃参数)。例如,你有一个能够理解和执行指令的智能助手。你可以告诉它“找出这篇文章中的主要论点”,或者“按照这个格式写一份报告”,然后助手就能生成你想要的内容。Jamba-1.5就是这样的智能助手,它不仅能理解和执行指令,还能在对话中保持上下文的连贯性,生成高质量的文本。

  • 官网地址:https://www.ai21.com/jamba

主要功能:

  • 指令调优:Jamba-1.5能够理解和执行各种指令。
  • 长文本处理:它能有效处理长达256K令牌的长文本,这在开放模型中是最长的。
  • 多语言支持:Jamba-1.5在多语言环境下也表现出色。

主要特点:

  • 混合架构:结合了Transformer和Mamba模型的优点,提高了吞吐量,降低了内存使用。
  • 高效量化技术:引入了ExpertsInt8量化技术,使得模型在保持质量的同时,能够在有限的硬件资源上运行。
  • 公开可用:模型权重公开,可以自由下载和使用。

工作原理:

  1. 模型架构:Jamba-1.5采用了混合Transformer-Mamba架构,每个区块包含多层Transformer和Mamba层,以及混合专家(MoE)模块。
  2. 量化技术:ExpertsInt8技术通过量化模型权重,减少了模型在运行时的内存需求,同时保持了模型质量。
  3. 训练过程:模型经过预训练、中期训练和后期训练,以获得各种技能和对话能力。

具体应用场景:

  • 学术研究:在知识问答、阅读理解等学术基准测试中表现出色。
  • 聊天机器人:在对话场景中,能够提供流畅、连贯的对话体验。
  • 长文本生成:能够生成长篇文章、报告或其他需要长篇文本的内容。
  • 多语言环境:在非英语语言环境中也能发挥作用,适用于多语言文本处理。

论文还提到了Jamba-1.5在多个基准测试中的表现,以及它在长文本处理方面的优势。此外,论文还讨论了模型的对齐和安全性问题,强调了透明度和与客户、监管机构以及独立第三方的合作。最后,论文列出了参与Jamba-1.5开发和评估的贡献者名单。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论