年份与会议
2023 · arXiv
用选择性状态空间模型挑战 Transformer 在长序列建模中的统治地位,强调线性复杂度、内容选择和硬件友好实现。
年份与会议
2023 · arXiv
作者
Albert Gu、Tri Dao
主题
状态空间模型
阅读时长
约 1 分钟
收录时间
2023/12/01
Transformer 之所以统治大模型时代,是因为它在表达能力、并行训练和工程生态上都非常强。但它有一个公开的痛点始终没被根治:
围绕这个问题,大家尝试过线性注意力、稀疏注意力、检索增强、状态空间模型等很多路线,但长期以来,绝大多数“非 Transformer”方案都很难在语言任务上真正挑战主流架构。
Mamba 之所以让人兴奋,是因为它第一次把“线性复杂度 + 对内容有选择性 + 硬件上可高效实现”这三件事放到了一起,而且效果不只是理论好看。
状态空间模型并不新鲜。在连续系统建模、信号处理和更早的序列建模里,它一直存在。后来像 S4 这样的工作,也让 SSM 在长序列建模中重新受到关注。
但它们面临一个关键短板:
它们通常更擅长稳定地处理长依赖,却不擅长做像注意力那样灵活的内容选择。
对语言这种离散、强语义、强条件依赖的模态来说,“能记很长”并不够,模型还得知道:
Mamba 的核心贡献,正是在传统 SSM 的基础上加入了这种更强的选择性。
论文的中心思想,可以用一句话概括:
状态更新不应完全固定,而应当对输入内容敏感。
也就是说,Mamba 不只是机械地把序列信息沿时间推进,而是让某些关键参数随输入变化,从而实现一种“按内容选择传播或遗忘信息”的机制。
这很重要,因为它弥补了很多线性序列模型的致命短板。过去它们的共同问题是:虽然复杂度低,但内容选择能力不够,所以在语言建模这种需要细粒度语义决策的任务上很难和注意力竞争。
Mamba 通过 selective mechanism 试图拿回这部分能力。
很多论文喜欢强调“理论复杂度更低”,但工程上往往未必真的更快。Mamba 的另一个关键点是,它没有停留在公式层面,而是专门设计了硬件友好的并行算法。
为什么这点很重要?因为:
Mamba 的一大亮点,就是它为 recurrent-style computation 设计了更适合现代硬件的实现路径。这让它不只是“一个替代注意力的理论方向”,而是真正有机会进入实际系统比较的候选架构。
Transformer 路线解决长序列问题,往往是围绕注意力做改造,例如:
Mamba 提供的是另一条思路:
不一定要把所有远距离依赖都建模成显式 token-token 注意力,也可以通过更强的状态更新机制去吸收与选择信息。
这意味着它不是在 Transformer 上打补丁,而是在重新定义序列骨干本身。这也是为什么很多人把 Mamba 看作“后 Transformer 候选路线”。
Mamba 论文最引人注目的结果,不只是长序列下线性扩展,更在于它在语言建模等真实任务中展现了非常强的竞争力。
对读者来说,最重要的不是背某个具体 benchmark,而是看懂这些结果传达的信号:
这三点使 Mamba 成为少数真正让社区认真讨论“是否存在 Transformer 替代者”的工作之一。
可以把两条路线简化理解为:
前者更像一个显式检索系统,后者更像一个动态压缩与过滤系统。两者各有优势:
从这个角度看,Mamba 的价值不在于“马上替代所有 Transformer”,而在于它重新打开了架构探索的想象空间。
Mamba 看似偏研究,但工程团队同样有理由关注:
换句话说,Mamba 的工业价值未必在于明天直接上生产,而在于它可能改变未来几代基础模型的骨干结构。
虽然 Mamba 很有冲击力,但也要看到几个现实问题:
Transformer 已经拥有最完整的训练、推理、解释和部署工具链,而 Mamba 生态还在早期。
很多团队熟悉注意力、KV Cache、标准并行策略,但对 SSM 相关数学与实现并不熟。
长序列和效率并不是唯一目标。某些任务上,Transformer 的显式关系建模仍然更顺手。
真正能否形成长期主线,不仅取决于首篇论文结果,还取决于后续模型、工具链和应用是否跟上。
因此,Mamba 更像一个值得高度关注的替代方向,而不是已经尘埃落定的新王。
站在 2026 年回头看,Mamba 的最大意义可能并不只是一个模型名字,而是它重新让社区认真面对一个问题:
Transformer 真的是序列建模的最终形式吗?
只要这个问题再次被认真提出,架构创新就不会完全停在“继续优化注意力实现”上。Mamba 让“骨干网络替代”重新成为一个严肃方向。
如果你只想抓住主线,请记住:
有了这三点,你再去看状态空间模型、线性注意力或混合架构时,就会知道它们分别在回答哪类问题。