年份与会议
2020 · NeurIPS
从 GPT 的生成式预训练,到 GPT-2 的无监督多任务能力,再到 GPT-3 的 few-shot 涌现,这条路线定义了现代通用大模型的主舞台。
年份与会议
2020 · NeurIPS
作者
Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、et al.
主题
预训练
阅读时长
约 2 分钟
收录时间
2020/05/28
如果只看单篇论文,很容易把 GPT-3 理解成“大参数模型效果突然变强”的一个孤立事件。但真正决定现代大模型方向的,并不是某一篇论文的单点突破,而是 GPT 系列连续三代里逐步被验证的几条核心命题:
从今天回头看,GPT 系列真正改变的是行业的默认问题。研究者不再主要问“这个任务该设计什么网络”,而开始问“一个足够大的通用模型,能否仅通过提示完成很多任务”。
2018 年的 GPT-1 解决的核心问题,其实是方法论验证。它提出:
这里的关键不是“第一次有人做预训练”,而是它把 decoder-only Transformer、自回归目标和下游迁移这一套组合成了清晰路线。相比同时期更偏双向编码的 BERT,GPT-1 的核心判断更偏向:
如果目标是构建统一生成式模型,那么自回归目标会更自然、更通用。
GPT-1 还没有让世界震动,但它搭好了后面两代最重要的骨架。
GPT-2 的震撼点,在于它把“语言模型只是会续写”这件事推翻了一半。随着规模变大,模型开始表现出一种令人惊讶的现象:
这些任务在很多情况下,不一定非要通过专门微调才能做。只要 prompt 写得合适,模型就可能直接完成。
这意味着语言模型的角色正在变化:
这也是为什么 GPT-2 不只是参数变大,而是认知拐点。它让社区第一次认真开始讨论 in-context behavior,虽然当时这个词还没有像后来那么主流。
GPT-3 的论文标题《Language Models are Few-Shot Learners》已经说明了一切。它最关键的观察不是“模型更大了”,而是:
当模型规模足够大时,只通过在上下文里给少量示例,模型就能在很多任务上表现出相当强的适配能力。
这就是后来被广泛讨论的 few-shot learning / in-context learning。对工程世界来说,它的意义非常大:
从产品史角度看,GPT-3 才真正让“通用大模型平台”成为主流想象。
把三代连起来看,GPT 路线的核心优势可以概括成四点:
下一个 token 预测虽然简单,却天然适合大规模文本数据,也天然适合生成场景。
同一个 decoder-only 主干,可以从预训练一路延伸到聊天、写作、代码补全、工具调用等大量场景。
参数、数据、上下文窗口和训练预算都可以沿着相对连续的方向增长。
用户本来就是通过文本与模型交互的,而 decoder-only 模型本身就是以“继续生成文本”为核心能力,因此产品化阻力较小。
这也是为什么后来即使出现了很多强大的 encoder-only 或 encoder-decoder 工作,通用助手和聊天模型主舞台仍然基本落在 GPT 路线上。
如果只把 GPT 发展看成“117M → 1.5B → 175B”,就会错过真正重要的变化。更值得记住的有三层:
GPT-1 重点是预训练后微调,GPT-3 重点是提示后直接做任务。任务适配方式发生了本质变化。
GPT-2 和 GPT-3 让大家开始相信,一个模型可以服务大量需求,而不是每个任务单独做一个系统。
GPT-3 不只是效果更好,它和 Scaling Laws for Neural Language Models 形成了非常强的相互印证:规模扩大确实会带来可预测的能力跃迁。
把 GPT 与 BERT 对照看,会更容易理解现代大模型的方向:
随着行业需求越来越集中到聊天、问答、写作、代码、agent 和多轮交互,decoder-only 路线天然更顺手。换句话说,不是 BERT 不强,而是 GPT 更符合“一个通用助手该怎样工作”的产品形态。
GPT 路线的成功很大,但它同样暴露出一系列问题:
这些问题后来分别催生了:
也就是说,GPT 成功之后,后续几年大量工作其实都在给 GPT 路线补上“更稳、更省、更可控”的能力。
到 2026 年再看,GPT-1 到 GPT-3 至少留下了五项长期影响:
这就是为什么即使今天模型名已经从 GPT 扩展到更多家族,很多核心设计语言依然沿袭自这里。
如果你想把 GPT 系列读明白,最值得抓住的是:
理解这四点,再去看后来的 ChatGPT、Claude、LLaMA、Gemini,会更容易看懂它们哪些是在延续 GPT 主线,哪些是在补 GPT 主线的短板。
沿着相近主题继续阅读,加深对方法边界与实践场景的理解。
用 MLM 与 NSP 把双向 Transformer 预训练推向主流,重塑了 NLP 从预训练到下游微调的默认范式。
用“先写中间推理步骤”的提示方式显著提升复杂推理任务表现,让 prompt 从输入模板升级为推理激活器。
从数据准备、预训练、指令微调、偏好对齐到评测上线,建立一条完整、可落地的大模型训练工程地图。
从任务定义、消息分层、few-shot、结构化输出到工具调用与评测回归,建立一套可复用的提示词工程方法。