PagedAttention

专题聚合页：打通教程、路径、模拟器与论文，快速构建完整知识链路。

教程 (1)

KV Cache 与推理性能优化

理解 KV Cache 如何减少自回归解码中的重复计算，并系统掌握延迟、吞吐、显存与服务调度之间的权衡。

难度进阶 · 更新 2026/03/23

推理优化 KV Cache 系统性能 PagedAttention

学习路径 (0)

暂无学习路径

后续会补充该方向的阶段化学习路线。

可视化模拟 (0)

暂无模拟器

后续会补充该方向的交互式仿真内容。

论文 (1)

Efficient Memory Management for Large Language Model Serving with PagedAttention

把操作系统的分页思想引入 KV Cache 管理，显著提升大模型服务吞吐，是现代推理系统论文中的关键代表。

2023 · arXiv

vLLM PagedAttention 推理系统连续批处理