KV Cache 与推理性能优化

理解 KV Cache 如何减少重复计算,并掌握延迟、吞吐、显存之间的权衡。

难度

进阶

阅读时长

约 55 分钟

更新日期

2026/03/15

主题

推理优化 / KV Cache / 系统性能

先修知识

Transformer 基础

问题背景

自回归生成每一步都重复计算历史 token,会导致高额开销。

KV Cache 核心思想

把过去 token 的 K/V 保存下来,下一步只计算新 token 并复用历史缓存。

常见权衡

  • 更低延迟 vs 更高显存占用
  • 更大 batch vs 更复杂调度