Transformer 注意力机制入门 用最小示例理解 Q/K/V、缩放点积注意力、Multi-Head 的直觉和计算流程。 难度 入门 · 45 分钟 · 更新 2026/03/17 Transformer Attention 基础原理
KV Cache 与推理性能优化 理解 KV Cache 如何减少重复计算,并掌握延迟、吞吐、显存之间的权衡。 难度 进阶 · 55 分钟 · 更新 2026/03/15 推理优化 KV Cache 系统性能