Transformer Block 完整拆解 把 LayerNorm、残差连接、多头注意力、FFN 和堆叠逻辑放到一个统一框架里,理解一个 block 为什么能成为现代大模型的基础积木。 难度 进阶 · 更新 2026/03/24 Transformer Transformer Block LayerNorm 基础原理