LLM 工程师 0-1 路径

这条路径适合谁

如果你符合下面任一情况，这条路径会比较合适：

你已经有基础编程能力，但对大模型原理和系统全貌还不够清晰。
你想转向 LLM 工程方向，需要一条能落到项目交付的学习路线。
你不一定打算自己训练超大模型，但希望理解训练、微调、推理和部署之间的连接关系。

这条路径的目标不是让你 12 周后“什么都会”，而是让你建立一套可持续扩展的工程骨架：遇到新模型、新框架、新优化时，知道它们分别落在哪个环节。

学习前的准备

开始前建议先确认三件事：

你能读懂基础 Python 和常见深度学习代码。
你对矩阵乘法、向量点积、loss、梯度这些术语不陌生。
你愿意每周稳定投入 6 到 10 小时，而不是一次性突击。

如果这三点都成立，就可以直接进入路线；如果第二点仍然薄弱，建议先补一点线性代数和神经网络基础，再开始效果更好。

12 周总览

阶段	周数	核心目标	建议输出
阶段一	第 1-3 周	建立 Transformer 与注意力直觉	一份手写注意力笔记 + 一次模拟器实验记录
阶段二	第 4-6 周	理解训练流水线、数据与对齐	一份训练流程图 + 一套最小 SFT 数据样例
阶段三	第 7-9 周	理解推理优化与服务瓶颈	一份 KV Cache / 吞吐 / 延迟分析笔记
阶段四	第 10-12 周	完成部署与项目交付	一个可演示的 API 或 Demo 页面

第一阶段：把底层原理学扎实（第 1-3 周）

第 1 周：把注意力机制讲清楚

核心任务：

阅读 Transformer 注意力机制入门。
打开 Attention Sandbox 观察温度、维度和 token 数变化对注意力分布的影响。
自己手算一次单头注意力最小例子。

这一周的目标不是会背公式，而是建立直觉：一个 token 为什么能直接读取整段上下文的信息。

第 2 周：把 Transformer 架构串起来

核心任务：

阅读 Attention Is All You Need。
重点理解 encoder、decoder、mask、FFN、残差连接、位置编码各自做什么。
用自己的话写出“为什么 Transformer 比 RNN 更适合规模化训练”。

建议输出：

一页结构图。
一份术语表，至少包含 Q/K/V、Multi-Head、Position Encoding、Causal Mask。

第 3 周：把位置和长上下文问题纳入视野

核心任务：

打开 RoPE Visualizer 观察不同位置和频率组的变化。
阅读 Lost in the Middle，理解“长上下文不等于高利用率”。

建议输出：

一份关于“长上下文设计为什么仍然难”的总结。
一个你自己设计的 prompt 排布实验。

第二阶段：理解训练流水线（第 4-6 周）

第 4 周：建立训练全貌

核心任务：

阅读大模型训练流水线总览。
画出从数据准备、预训练、SFT、对齐到评测的完整流程图。
明确每个阶段各自的输入、输出和成功标准。

建议输出：

一张训练流程图。
一张“不同阶段主要指标”对照表。

第 5 周：理解规模化与预算约束

核心任务：

阅读 Scaling Laws for Neural Language Models。
用自己的语言解释“为什么训练预算要在模型和数据之间做配比”。
为一个假想项目设计训练预算表：模型大小、训练 token、目标能力、评测维度。

这一周要建立的不是精确公式能力，而是工程判断力：不是所有问题都靠堆参数解决。

第 6 周：做一个最小 SFT 数据闭环

核心任务：

阅读 SFT 数据构造与质量控制，把“好样本”的标准写成自己的标注规范。
阅读 LoRA 微调实战，理解一个最小微调闭环需要哪些数据、配置和评测环节。
自己选择一个小场景，例如“技术问答助手”或“文档摘要助手”。
设计 20 到 50 条高质量指令样本，统一成同一种对话模板。
制作一个最小评测集，至少覆盖正确性、格式稳定性和拒答策略。

建议输出：

一个 jsonl 或 json 形式的小数据集。
一份标注规范说明。

第三阶段：进入推理与部署视角（第 7-9 周）

第 7 周：理解推理阶段为什么贵

核心任务：

阅读 KV Cache 与推理性能优化。
用自己的话解释 prefill、decode、TTFT、tokens/s 的区别。
写出 KV Cache 的显存估算公式，并尝试带入一组参数做手算。

建议输出：

一份“延迟、吞吐、显存”三者关系图。

第 8 周：把性能问题看成系统问题

核心任务：

梳理 continuous batching、PagedAttention、GQA/MQA 分别解决什么问题。
阅读模型量化入门：INT8、INT4、GPTQ 与 AWQ，理解权重量化和缓存瓶颈之间的关系。
观察不同 prompt 长度对生成速度的影响。
设计一个线上服务的性能监控面板草图。

建议输出：

一份“线上推理监控指标清单”。
一份你认为最容易被忽视的性能瓶颈说明。

第 9 周：完成一次最小服务化尝试

核心任务：

阅读 LLM 推理服务搭建：vLLM、TGI 与 Ollama，对照自己的服务方案补齐 API、日志和健康检查。
选用一个开源模型和你熟悉的服务方案，搭一个能调用的推理接口。
让接口支持至少一种可测试输入和一种固定格式输出。
为接口准备最小健康检查和错误日志记录。

这一周不追求高并发，只追求“从模型到接口”的闭环打通。

第四阶段：形成可展示的项目成果（第 10-12 周）

第 10 周：定义毕业项目

建议从下列方向中选一个：

文档问答助手
技术概念解释助手
企业内部知识检索助手
面向某个垂直领域的小型 Copilot

项目目标要尽量具体，避免做成一个“什么都能回答一点、但没有场景约束”的 Demo。

第 11 周：补齐评测与体验

核心任务：

如果项目涉及知识库问答或企业文档场景，阅读 RAG 系统搭建实战，检查问题到底出在召回、重排序还是提示词。
如果项目输出格式不稳定，回看 Prompt Engineering 系统指南，把任务说明、few-shot 和结构化输出约束重新梳理一遍。
准备一批真实问题样本做回归测试。
记录错误类型，例如幻觉、答非所问、格式错误、超时。
根据错误类型调整 prompt、检索、输出模板或服务参数。

建议输出：

一份项目评测表。
一份失败案例复盘文档。

第 12 周：完成交付与复盘

核心任务：

整理项目 README、接口说明和运行方式。
准备一页项目总结，包含目标、方案、瓶颈和下一步。
复盘自己在“原理、训练、推理、部署”四个环节最薄弱的部分。

这一周结束时，你应该至少能拿出一个别人可以理解、可以演示、可以继续迭代的小项目。

每周固定动作建议

为了保证学习节奏稳定，建议每周保持这个结构：

3 天学习核心内容和论文。
2 天做实验、写笔记或搭小样例。
1 天整理输出物。
1 天复盘：我这周理解了什么，还有哪些概念只是“看过”而不是“会讲”。

工程学习最怕“只看不做”。哪怕每周只做一个很小的实验，也比连续几周只看文章更有效。

里程碑检查点

第 4 周检查

你应该已经能：

用自己的话解释 Transformer 的核心组件。
说清楚为什么注意力适合并行。
画出训练流水线的大图。

第 8 周检查

你应该已经能：

解释 KV Cache 和连续批处理的作用。
看懂一套最小 SFT 数据格式。
区分训练优化和推理优化是两类不同问题。

第 12 周检查

你应该已经能：

搭一个可调用的推理接口。
说明项目的瓶颈在数据、模型、推理还是产品设计。
给出下一轮优化的优先级，而不是只说“换个更强模型试试”。

常见误区

一上来就沉迷追新模型，却没有建立基础系统观。
只看论文和教程，不写任何实验笔记或最小代码。
把训练、推理、部署当成完全独立的话题，没有建立链路意识。
项目定义过大，最后只能做成一个展示不清价值的 Demo。

完成这条路径后，你下一步可以做什么

如果你走完这 12 周，下一步有两种很自然的方向：

往“更强工程”走：继续阅读分布式训练入门：数据并行、张量并行与流水线并行，再深入量化、服务编排和多模型路由。
往“更强研究”走：补齐评测方法论、论文复现和实验设计，转向更研究型路线。

如果你更想往第二条路继续，建议接着看 LLM 研究者进阶路径。

阶段目标

模块建议

这条路径适合谁

学习前的准备

12 周总览

第一阶段：把底层原理学扎实（第 1-3 周）

第 1 周：把注意力机制讲清楚

第 2 周：把 Transformer 架构串起来

第 3 周：把位置和长上下文问题纳入视野

第二阶段：理解训练流水线（第 4-6 周）

第 4 周：建立训练全貌

第 5 周：理解规模化与预算约束

第 6 周：做一个最小 SFT 数据闭环

第三阶段：进入推理与部署视角（第 7-9 周）

第 7 周：理解推理阶段为什么贵

第 8 周：把性能问题看成系统问题

第 9 周：完成一次最小服务化尝试

第四阶段：形成可展示的项目成果（第 10-12 周）

第 10 周：定义毕业项目

第 11 周：补齐评测与体验

第 12 周：完成交付与复盘

每周固定动作建议

里程碑检查点

第 4 周检查

第 8 周检查

第 12 周检查

常见误区

完成这条路径后，你下一步可以做什么