LLM 工程师 0-1 路径

面向希望进入大模型工程岗位的学习者,用 12 周时间从原理理解、训练认知走到推理部署与项目交付。

学习周期

12 周

适合人群

工程实践型学习者

路径等级

入门

阅读时长

约 2 分钟

更新日期

2026/03/23

阶段目标

理解 Transformer 核心机制建立完整训练与推理工程认知完成一次小规模微调实验部署一个可访问的推理 API

模块建议

注意力与 Transformer 基础训练流水线与数据认知推理优化与 KV Cache服务部署与项目交付

这条路径适合谁

如果你符合下面任一情况,这条路径会比较合适:

  • 你已经有基础编程能力,但对大模型原理和系统全貌还不够清晰。
  • 你想转向 LLM 工程方向,需要一条能落到项目交付的学习路线。
  • 你不一定打算自己训练超大模型,但希望理解训练、微调、推理和部署之间的连接关系。

这条路径的目标不是让你 12 周后“什么都会”,而是让你建立一套可持续扩展的工程骨架:遇到新模型、新框架、新优化时,知道它们分别落在哪个环节。

学习前的准备

开始前建议先确认三件事:

  1. 你能读懂基础 Python 和常见深度学习代码。
  2. 你对矩阵乘法、向量点积、loss、梯度这些术语不陌生。
  3. 你愿意每周稳定投入 6 到 10 小时,而不是一次性突击。

如果这三点都成立,就可以直接进入路线;如果第二点仍然薄弱,建议先补一点线性代数和神经网络基础,再开始效果更好。

12 周总览

阶段周数核心目标建议输出
阶段一第 1-3 周建立 Transformer 与注意力直觉一份手写注意力笔记 + 一次模拟器实验记录
阶段二第 4-6 周理解训练流水线、数据与对齐一份训练流程图 + 一套最小 SFT 数据样例
阶段三第 7-9 周理解推理优化与服务瓶颈一份 KV Cache / 吞吐 / 延迟分析笔记
阶段四第 10-12 周完成部署与项目交付一个可演示的 API 或 Demo 页面

第一阶段:把底层原理学扎实(第 1-3 周)

第 1 周:把注意力机制讲清楚

核心任务:

这一周的目标不是会背公式,而是建立直觉:一个 token 为什么能直接读取整段上下文的信息

第 2 周:把 Transformer 架构串起来

核心任务:

  • 阅读 Attention Is All You Need
  • 重点理解 encoder、decoder、mask、FFN、残差连接、位置编码各自做什么。
  • 用自己的话写出“为什么 Transformer 比 RNN 更适合规模化训练”。

建议输出:

  • 一页结构图。
  • 一份术语表,至少包含 Q/K/V、Multi-Head、Position Encoding、Causal Mask。

第 3 周:把位置和长上下文问题纳入视野

核心任务:

建议输出:

  • 一份关于“长上下文设计为什么仍然难”的总结。
  • 一个你自己设计的 prompt 排布实验。

第二阶段:理解训练流水线(第 4-6 周)

第 4 周:建立训练全貌

核心任务:

  • 阅读 大模型训练流水线总览
  • 画出从数据准备、预训练、SFT、对齐到评测的完整流程图。
  • 明确每个阶段各自的输入、输出和成功标准。

建议输出:

  • 一张训练流程图。
  • 一张“不同阶段主要指标”对照表。

第 5 周:理解规模化与预算约束

核心任务:

  • 阅读 Scaling Laws for Neural Language Models
  • 用自己的语言解释“为什么训练预算要在模型和数据之间做配比”。
  • 为一个假想项目设计训练预算表:模型大小、训练 token、目标能力、评测维度。

这一周要建立的不是精确公式能力,而是工程判断力:不是所有问题都靠堆参数解决。

第 6 周:做一个最小 SFT 数据闭环

核心任务:

  • 阅读 SFT 数据构造与质量控制,把“好样本”的标准写成自己的标注规范。
  • 阅读 LoRA 微调实战,理解一个最小微调闭环需要哪些数据、配置和评测环节。
  • 自己选择一个小场景,例如“技术问答助手”或“文档摘要助手”。
  • 设计 20 到 50 条高质量指令样本,统一成同一种对话模板。
  • 制作一个最小评测集,至少覆盖正确性、格式稳定性和拒答策略。

建议输出:

  • 一个 jsonljson 形式的小数据集。
  • 一份标注规范说明。

第三阶段:进入推理与部署视角(第 7-9 周)

第 7 周:理解推理阶段为什么贵

核心任务:

  • 阅读 KV Cache 与推理性能优化
  • 用自己的话解释 prefill、decode、TTFT、tokens/s 的区别。
  • 写出 KV Cache 的显存估算公式,并尝试带入一组参数做手算。

建议输出:

  • 一份“延迟、吞吐、显存”三者关系图。

第 8 周:把性能问题看成系统问题

核心任务:

  • 梳理 continuous batching、PagedAttention、GQA/MQA 分别解决什么问题。
  • 阅读 模型量化入门:INT8、INT4、GPTQ 与 AWQ,理解权重量化和缓存瓶颈之间的关系。
  • 观察不同 prompt 长度对生成速度的影响。
  • 设计一个线上服务的性能监控面板草图。

建议输出:

  • 一份“线上推理监控指标清单”。
  • 一份你认为最容易被忽视的性能瓶颈说明。

第 9 周:完成一次最小服务化尝试

核心任务:

  • 阅读 LLM 推理服务搭建:vLLM、TGI 与 Ollama,对照自己的服务方案补齐 API、日志和健康检查。
  • 选用一个开源模型和你熟悉的服务方案,搭一个能调用的推理接口。
  • 让接口支持至少一种可测试输入和一种固定格式输出。
  • 为接口准备最小健康检查和错误日志记录。

这一周不追求高并发,只追求“从模型到接口”的闭环打通。

第四阶段:形成可展示的项目成果(第 10-12 周)

第 10 周:定义毕业项目

建议从下列方向中选一个:

  • 文档问答助手
  • 技术概念解释助手
  • 企业内部知识检索助手
  • 面向某个垂直领域的小型 Copilot

项目目标要尽量具体,避免做成一个“什么都能回答一点、但没有场景约束”的 Demo。

第 11 周:补齐评测与体验

核心任务:

  • 如果项目涉及知识库问答或企业文档场景,阅读 RAG 系统搭建实战,检查问题到底出在召回、重排序还是提示词。
  • 如果项目输出格式不稳定,回看 Prompt Engineering 系统指南,把任务说明、few-shot 和结构化输出约束重新梳理一遍。
  • 准备一批真实问题样本做回归测试。
  • 记录错误类型,例如幻觉、答非所问、格式错误、超时。
  • 根据错误类型调整 prompt、检索、输出模板或服务参数。

建议输出:

  • 一份项目评测表。
  • 一份失败案例复盘文档。

第 12 周:完成交付与复盘

核心任务:

  • 整理项目 README、接口说明和运行方式。
  • 准备一页项目总结,包含目标、方案、瓶颈和下一步。
  • 复盘自己在“原理、训练、推理、部署”四个环节最薄弱的部分。

这一周结束时,你应该至少能拿出一个别人可以理解、可以演示、可以继续迭代的小项目。

每周固定动作建议

为了保证学习节奏稳定,建议每周保持这个结构:

  • 3 天学习核心内容和论文。
  • 2 天做实验、写笔记或搭小样例。
  • 1 天整理输出物。
  • 1 天复盘:我这周理解了什么,还有哪些概念只是“看过”而不是“会讲”。

工程学习最怕“只看不做”。哪怕每周只做一个很小的实验,也比连续几周只看文章更有效。

里程碑检查点

第 4 周检查

你应该已经能:

  • 用自己的话解释 Transformer 的核心组件。
  • 说清楚为什么注意力适合并行。
  • 画出训练流水线的大图。

第 8 周检查

你应该已经能:

  • 解释 KV Cache 和连续批处理的作用。
  • 看懂一套最小 SFT 数据格式。
  • 区分训练优化和推理优化是两类不同问题。

第 12 周检查

你应该已经能:

  • 搭一个可调用的推理接口。
  • 说明项目的瓶颈在数据、模型、推理还是产品设计。
  • 给出下一轮优化的优先级,而不是只说“换个更强模型试试”。

常见误区

  1. 一上来就沉迷追新模型,却没有建立基础系统观。
  2. 只看论文和教程,不写任何实验笔记或最小代码。
  3. 把训练、推理、部署当成完全独立的话题,没有建立链路意识。
  4. 项目定义过大,最后只能做成一个展示不清价值的 Demo。

完成这条路径后,你下一步可以做什么

如果你走完这 12 周,下一步有两种很自然的方向:

如果你更想往第二条路继续,建议接着看 LLM 研究者进阶路径