DPO

专题聚合页：打通教程、路径、模拟器与论文，快速构建完整知识链路。

教程 (1)

大模型训练流水线总览

从数据准备、预训练、指令微调、偏好对齐到评测上线，建立一条完整、可落地的大模型训练工程地图。

难度进阶 · 更新 2026/03/24

训练工程预训练 SFT RLHF DPO

学习路径 (0)

暂无学习路径

后续会补充该方向的阶段化学习路线。

可视化模拟 (0)

暂无模拟器

后续会补充该方向的交互式仿真内容。

论文 (1)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

把偏好对齐从“奖励模型 + PPO”压缩成更直接的优化目标，显著降低了 RLHF 流程的复杂度。

2023 · arXiv

DPO 偏好学习对齐 RLHF