PPO

专题聚合页：打通教程、路径、模拟器与论文，快速构建完整知识链路。

教程 (0)

暂无教程

后续会补充该方向的系统教程。

学习路径 (0)

暂无学习路径

后续会补充该方向的阶段化学习路线。

可视化模拟 (0)

暂无模拟器

后续会补充该方向的交互式仿真内容。

论文 (1)

Training Language Models to Follow Instructions with Human Feedback

用 SFT、奖励模型和 PPO 构建 RLHF 闭环，让语言模型从“会续写”走向“更会按人类意图回答”。

2022 · arXiv

InstructGPT RLHF 对齐 PPO