Transformer

专题聚合页：打通教程、路径、模拟器与论文，快速构建完整知识链路。

教程 (3)

从“模型为什么需要顺序感”讲到绝对位置、相对位置与 RoPE，建立长上下文位置建模的统一直觉。

难度进阶 · 更新 2026/03/24

把 LayerNorm、残差连接、多头注意力、FFN 和堆叠逻辑放到一个统一框架里，理解一个 block 为什么能成为现代大模型的基础积木。

难度进阶 · 更新 2026/03/24

用直觉解释、数值例子和最小代码示例，真正理解 Q/K/V、缩放点积注意力与 Multi-Head 的工作方式。

难度入门 · 更新 2026/03/23

面向希望进入大模型工程岗位的学习者，用 12 周时间从原理理解、训练认知走到推理部署与项目交付。

12 周 · 适合工程实践型学习者 · 更新 2026/03/23

面向具备基础的大模型研究者，用 16 周建立论文图谱、复现实验、评测设计与研究写作的完整工作流。

16 周 · 适合研究导向型学习者 · 更新 2026/03/23

汇总并站内嵌入优秀开源可视化项目，快速比较不同交互叙事风格。

已发布 · 更新 2026/03/18

通过可调参数观察注意力权重如何变化，理解上下文聚焦行为。

已发布 · 更新 2026/03/17

用更克制的参数规模、更长的训练 token 和一组细致的架构改造，证明开源基座模型也能逼近闭源大模型能力。

2023 · arXiv

用 MLM 与 NSP 把双向 Transformer 预训练推向主流，重塑了 NLP 从预训练到下游微调的默认范式。

2018 · NAACL

提出 Transformer 架构，以纯注意力机制替代 RNN/CNN，重写了序列建模的工程范式与研究方向。

2017 · NeurIPS