Liquid AI 发布非 Transformer 架构的 Liquid 基础模型

| 分类: AI情报 | 热度: 8 ℃

Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模型(Liquid Foundation Models,LFM),分别是 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模型采用了非 Transformer 架构,据称在基准测试中超越了同规模的 Transformer 模型。

背景

目前,Transformer 架构是深度学习和自然语言处理领域的主流架构,主要利用自注意力机制捕捉序列中单词之间的关系。包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模型,都是基于 Transformer 架构。然而,Transformer 架构在处理长输入时需要保存键值(KV)缓存,导致输入越长,占用的 RAM 越多。

Liquid AI 发布非 Transformer 架构的 Liquid 基础模型

Liquid AI 的创新

Liquid AI 的 LFM 模型对模型架构进行了“重新设想”,受到“交通信号处理系统、数值线性代数”理念的影响,主打“通用性”,能够针对特定类型的数据进行建模,同时支持对视频、音频、文本、时间序列和交通信号等内容进行处理。

模型特点

  1. RAM 用量更少
    • LFM 模型能够避免 Transformer 架构在处理长输入时的 RAM 占用问题,通过对外界输入的数据进行压缩,降低对硬件资源的需求。
  2. 处理长序列
    • 在相同硬件条件下,LFM 模型能够处理更长的序列,特别适用于资源受限的环境和边缘计算场景。

模型详情

  1. LFM-1.3B
    • 设计目的:专为资源受限的环境设计。
    • 优势:在许多基准测试中击败了其他 1B 参数规模的领先模型,包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 和 Stability 的 Stable LM 2。
  2. LFM-3.1B
    • 设计目的:针对边缘计算进行了优化。
    • 优势:不仅超越了 3B 规模的各种 Transformer 模型、混合模型和 RNN 模型,甚至还在特定场景超越了上一代的 7B 和 13B 规模模型,包括谷歌的 Gemma 2、苹果的 AFM Edge、Meta 的 Llama 3.2 和微软的 Phi-3.5。
  3. LFM-40.3B
    • 设计目的:适用于数学计算、交通信号处理等场景。
    • 特点:强调在模型规模和输出质量之间的平衡,拥有 400 亿个参数,但在推理时仅启用 120 亿个参数。Liquid AI 声称这种限制能够提升模型效率、降低模型运行所需的硬件配置。

语言支持

这些模型在通用知识和专业知识的处理上表现突出,能够高效处理长文本任务,还能够处理数学和逻辑推理任务。目前主要支持英语,但也对中文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限支持。Liquid AI 的 LFM 模型在非 Transformer 架构的基础上,展示了在资源效率和性能方面的显著优势。这些模型的发布标志着非 GPT 架构模型首次明显超越了 Transformer 模型,为深度学习和自然语言处理领域带来了新的可能性。未来,这些模型有望在资源受限的环境和边缘计算场景中发挥重要作用。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论