大模型训练流水线总览 从数据准备、预训练、指令微调、偏好对齐到评测上线,建立一条完整、可落地的大模型训练工程地图。 难度 进阶 · 更新 2026/03/24 训练工程 预训练 SFT RLHF DPO
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 把偏好对齐从“奖励模型 + PPO”压缩成更直接的优化目标,显著降低了 RLHF 流程的复杂度。 2023 · arXiv DPO 偏好学习 对齐 RLHF