Training Language Models to Follow Instructions with Human Feedback 用 SFT、奖励模型和 PPO 构建 RLHF 闭环,让语言模型从“会续写”走向“更会按人类意图回答”。 2022 · arXiv InstructGPT RLHF 对齐 PPO