Transformer 注意力机制入门

用最小示例理解 Q/K/V、缩放点积注意力、Multi-Head 的直觉和计算流程。

难度

入门

阅读时长

约 45 分钟

更新日期

2026/03/17

主题

Transformer / Attention / 基础原理

先修知识

线性代数基础向量点积

你将学到什么

  • 为什么需要注意力机制
  • 单头注意力的计算步骤
  • 多头注意力为何能提升表达能力

一个直觉

可以把注意力看作“让每个 token 决定要听谁说话”。

最小公式

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V

学完后建议

继续学习位置编码与 RoPE,然后进入完整 Transformer Block。