当前位置：首页 > 优惠 >大语言模型>文章详情

新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型（State-Space Models，简称SSMs）之间的关系

推荐人：暴走AI| 商城: AI | 11个月前 (06-03)| 分类：大语言模型 | 热度：210 ℃

已关闭评论

新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型（State-Space Models，简称SSMs）之间的关系

普林斯顿大学计算机科学系和卡内基梅隆大学机器学习系的研究人员推出一种新型的深度学习模型架构——Transformers和状态空间模型（State-Space Models，简称SSMs）之间的关系，并提出了一种新的架构和高效的算法。论文的标题是“Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”，意即“Transformers实际上是SSMs：通过结构化状态空间对偶的广义模型和高效算法”。

例如，你有一个机器，它需要学习如何根据一系列的指令来执行任务。在这个例子中，每个指令就像是一个状态，而机器需要记住之前的指令来正确执行下一个任务。SSMs就像是一个有记忆力的机器，它可以记住之前的状态，并用这些信息来更好地执行新的任务。而Transformers则像是没有那么多记忆，但能够快速处理信息的机器。这篇论文提出的SSD框架，就像是找到了一种方法，让这两台机器能够互相学习对方的优点，从而提高整体的工作效率。

主要功能与特点：

模型关联：揭示了Transformers和SSMs这两类模型实际上是紧密相关的，这一点对于理解深度学习模型的工作原理和优化它们非常有价值。
理论框架：提出了一个名为结构化状态空间对偶（Structured State Space Duality，简称SSD）的理论框架，这个框架通过研究一类被称为结构化半分离矩阵的特殊矩阵类，建立了SSMs和注意力机制之间的联系。
新架构：设计了一种名为Mamba-2的新架构，其核心层是对Mamba模型的选择性SSM的改进，速度提升了2到8倍，同时在语言建模方面与Transformers保持竞争力。