Mamba: Linear-Time Sequence Modeling with Selective State Spaces

用选择性状态空间模型挑战 Transformer 在长序列建模中的统治地位,强调线性复杂度、内容选择和硬件友好实现。

年份与会议

2023 · arXiv

作者

Albert Gu、Tri Dao

主题

状态空间模型

阅读时长

约 1 分钟

收录时间

2023/12/01

标签

原文链接

https://arxiv.org/abs/2312.00752

为什么 Mamba 会在 Transformer 时代引发这么多关注

Transformer 之所以统治大模型时代,是因为它在表达能力、并行训练和工程生态上都非常强。但它有一个公开的痛点始终没被根治:

  • 长序列成本高
  • 注意力与缓存开销重
  • 推理和训练都容易被内存/带宽卡住

围绕这个问题,大家尝试过线性注意力、稀疏注意力、检索增强、状态空间模型等很多路线,但长期以来,绝大多数“非 Transformer”方案都很难在语言任务上真正挑战主流架构。

Mamba 之所以让人兴奋,是因为它第一次把“线性复杂度 + 对内容有选择性 + 硬件上可高效实现”这三件事放到了一起,而且效果不只是理论好看。

背景:状态空间模型为什么之前没有取代注意力

状态空间模型并不新鲜。在连续系统建模、信号处理和更早的序列建模里,它一直存在。后来像 S4 这样的工作,也让 SSM 在长序列建模中重新受到关注。

但它们面临一个关键短板:

它们通常更擅长稳定地处理长依赖,却不擅长做像注意力那样灵活的内容选择。

对语言这种离散、强语义、强条件依赖的模态来说,“能记很长”并不够,模型还得知道:

  • 当前 token 该保留什么
  • 该忘掉什么
  • 该把哪部分历史信息提出来

Mamba 的核心贡献,正是在传统 SSM 的基础上加入了这种更强的选择性。

核心方法一:Selective State Spaces

论文的中心思想,可以用一句话概括:

状态更新不应完全固定,而应当对输入内容敏感。

也就是说,Mamba 不只是机械地把序列信息沿时间推进,而是让某些关键参数随输入变化,从而实现一种“按内容选择传播或遗忘信息”的机制。

这很重要,因为它弥补了很多线性序列模型的致命短板。过去它们的共同问题是:虽然复杂度低,但内容选择能力不够,所以在语言建模这种需要细粒度语义决策的任务上很难和注意力竞争。

Mamba 通过 selective mechanism 试图拿回这部分能力。

核心方法二:线性复杂度不是全部,关键还要能跑快

很多论文喜欢强调“理论复杂度更低”,但工程上往往未必真的更快。Mamba 的另一个关键点是,它没有停留在公式层面,而是专门设计了硬件友好的并行算法。

为什么这点很重要?因为:

  • 递归式模型通常不如 Transformer 那样天然易于并行。
  • 如果只是理论上线性,但 GPU 上跑不快,实际价值会大打折扣。

Mamba 的一大亮点,就是它为 recurrent-style computation 设计了更适合现代硬件的实现路径。这让它不只是“一个替代注意力的理论方向”,而是真正有机会进入实际系统比较的候选架构。

为什么说它在“长上下文问题”上提供了不同思路

Transformer 路线解决长序列问题,往往是围绕注意力做改造,例如:

  • 稀疏注意力
  • 近似注意力
  • FlashAttention 这类 IO 优化
  • 更高效的位置编码

Mamba 提供的是另一条思路:

不一定要把所有远距离依赖都建模成显式 token-token 注意力,也可以通过更强的状态更新机制去吸收与选择信息。

这意味着它不是在 Transformer 上打补丁,而是在重新定义序列骨干本身。这也是为什么很多人把 Mamba 看作“后 Transformer 候选路线”。

实验结果说明了什么

Mamba 论文最引人注目的结果,不只是长序列下线性扩展,更在于它在语言建模等真实任务中展现了非常强的竞争力。

对读者来说,最重要的不是背某个具体 benchmark,而是看懂这些结果传达的信号:

  1. 非 Transformer 架构并非注定只能当陪跑。
  2. 只要内容选择能力足够强,状态空间模型也能做语言建模。
  3. “效率更高”不必一定意味着“能力明显更弱”。

这三点使 Mamba 成为少数真正让社区认真讨论“是否存在 Transformer 替代者”的工作之一。

它和 Attention 路线的本质差别是什么

可以把两条路线简化理解为:

  • Attention:显式计算当前位置与所有位置的关系,再做加权聚合。
  • Mamba:通过选择性状态更新,把关键信息压进状态,并在后续需要时高效读出。

前者更像一个显式检索系统,后者更像一个动态压缩与过滤系统。两者各有优势:

  • Attention 可解释性更直观,也更适合显式对齐任意位置。
  • Mamba 在长序列和线性扩展上更有理论吸引力。

从这个角度看,Mamba 的价值不在于“马上替代所有 Transformer”,而在于它重新打开了架构探索的想象空间。

为什么工程团队也会关心它

Mamba 看似偏研究,但工程团队同样有理由关注:

  • 如果未来能在长序列下显著降低推理成本,它会直接影响服务方案。
  • 如果状态空间路线能在硬件利用率上更优,训练系统设计也会改变。
  • 即便最终不完全替代 Transformer,其思想也可能影响混合架构出现。

换句话说,Mamba 的工业价值未必在于明天直接上生产,而在于它可能改变未来几代基础模型的骨干结构。

局限:Mamba 离“完全接管”还很远

虽然 Mamba 很有冲击力,但也要看到几个现实问题:

1. 生态远不如 Transformer 成熟

Transformer 已经拥有最完整的训练、推理、解释和部署工具链,而 Mamba 生态还在早期。

2. 上手门槛并不低

很多团队熟悉注意力、KV Cache、标准并行策略,但对 SSM 相关数学与实现并不熟。

3. 并非所有任务都天然受益

长序列和效率并不是唯一目标。某些任务上,Transformer 的显式关系建模仍然更顺手。

4. 社区需要更多复现与扩展验证

真正能否形成长期主线,不仅取决于首篇论文结果,还取决于后续模型、工具链和应用是否跟上。

因此,Mamba 更像一个值得高度关注的替代方向,而不是已经尘埃落定的新王。

从今天看,Mamba 最重要的意义是什么

站在 2026 年回头看,Mamba 的最大意义可能并不只是一个模型名字,而是它重新让社区认真面对一个问题:

Transformer 真的是序列建模的最终形式吗?

只要这个问题再次被认真提出,架构创新就不会完全停在“继续优化注意力实现”上。Mamba 让“骨干网络替代”重新成为一个严肃方向。

读这篇论文时最该抓住什么

如果你只想抓住主线,请记住:

  1. Mamba 试图解决的是 Transformer 在长序列上的效率痛点。
  2. 它的关键不是普通 SSM,而是 selective state spaces。
  3. 它的重要性在于重新证明:非 Transformer 架构也可能在语言任务上变得有竞争力。

有了这三点,你再去看状态空间模型、线性注意力或混合架构时,就会知道它们分别在回答哪类问题。

延伸阅读