← 返回全部标签

# 蒸馏

共 1 篇相关论文

训练进阶 2025 DeepSeek 系列

DeepSeek-R1 论文解读

通过强化学习激发大语言模型推理能力的突破性工作，开创了推理模型的新范式

强化学习推理能力 GRPO +2

2026年3月10日