大模型训练流水线总览

从数据清洗、预训练、对齐训练到评测,建立完整训练工程认知框架。

难度

进阶

阅读时长

约 70 分钟

更新日期

2026/03/16

主题

训练工程 / SFT / RLHF

先修知识

深度学习基础GPU 训练常识

阶段划分

  1. 数据准备
  2. 预训练
  3. 指令微调(SFT)
  4. 偏好对齐(RLHF/DPO)
  5. 评测与安全审查

工程重点

  • 数据质量比数据量更关键
  • 训练监控需要覆盖 loss、吞吐、稳定性
  • 对齐阶段要单独设计评测集