位置编码详解(绝对 → 相对 → RoPE)
从“模型为什么需要顺序感”讲到绝对位置、相对位置与 RoPE,建立长上下文位置建模的统一直觉。
专题聚合页:打通教程、路径、模拟器与论文,快速构建完整知识链路。
用更克制的参数规模、更长的训练 token 和一组细致的架构改造,证明开源基座模型也能逼近闭源大模型能力。
用 MLM 与 NSP 把双向 Transformer 预训练推向主流,重塑了 NLP 从预训练到下游微调的默认范式。
提出 Transformer 架构,以纯注意力机制替代 RNN/CNN,重写了序列建模的工程范式与研究方向。