DenseMamba

优惠 新型网络架构DenseMamba:针对大语言模型的一种高效状态空间模型

  • 新型网络架构DenseMamba:针对大语言模型的一种高效状态空间模型
    AI
  • 这篇论文介绍了一个名为DenseMamba的新型网络架构,它是针对大语言模型(LLMs)的一种高效状态空间模型(SSM)。大型语言模型,如GPT-3和BERT,通常依赖于Transformer架构,这种架构在处理长文本时计算和内存需求非常高。DenseMamba旨在解决这个问题,通过改进SSM来降低计算复杂度,同时保持... 阅读全文