GPT 系列演进(GPT → GPT-2 → GPT-3)

从 GPT 的生成式预训练,到 GPT-2 的无监督多任务能力,再到 GPT-3 的 few-shot 涌现,这条路线定义了现代通用大模型的主舞台。

年份与会议

2020 · NeurIPS

作者

Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、et al.

主题

预训练

阅读时长

约 2 分钟

收录时间

2020/05/28

标签

原文链接

https://arxiv.org/abs/2005.14165

为什么要把 GPT-1、GPT-2、GPT-3 放在一起看

如果只看单篇论文,很容易把 GPT-3 理解成“大参数模型效果突然变强”的一个孤立事件。但真正决定现代大模型方向的,并不是某一篇论文的单点突破,而是 GPT 系列连续三代里逐步被验证的几条核心命题:

  1. 统一的自回归预训练目标非常强。
  2. 不为单个任务定制结构,而是让同一个模型泛化到尽可能多任务,是可行路线。
  3. 模型规模、数据规模和上下文学习能力之间存在明显联动。

从今天回头看,GPT 系列真正改变的是行业的默认问题。研究者不再主要问“这个任务该设计什么网络”,而开始问“一个足够大的通用模型,能否仅通过提示完成很多任务”。

GPT-1:先证明“生成式预训练 + 微调”能打通

2018 年的 GPT-1 解决的核心问题,其实是方法论验证。它提出:

  • 先在大规模无标注文本上做自回归语言模型预训练。
  • 再把同一个模型迁移到下游任务上进行微调。

这里的关键不是“第一次有人做预训练”,而是它把 decoder-only Transformer、自回归目标和下游迁移这一套组合成了清晰路线。相比同时期更偏双向编码的 BERT,GPT-1 的核心判断更偏向:

如果目标是构建统一生成式模型,那么自回归目标会更自然、更通用。

GPT-1 还没有让世界震动,但它搭好了后面两代最重要的骨架。

GPT-2:开始让大家意识到“任务可能不必显式教”

GPT-2 的震撼点,在于它把“语言模型只是会续写”这件事推翻了一半。随着规模变大,模型开始表现出一种令人惊讶的现象:

  • 翻译
  • 摘要
  • 问答
  • 常识补全
  • 风格迁移

这些任务在很多情况下,不一定非要通过专门微调才能做。只要 prompt 写得合适,模型就可能直接完成。

这意味着语言模型的角色正在变化:

  • 过去:一个需要针对任务再造的底座。
  • GPT-2 之后:一个本身就开始具备多任务潜力的统一生成器。

这也是为什么 GPT-2 不只是参数变大,而是认知拐点。它让社区第一次认真开始讨论 in-context behavior,虽然当时这个词还没有像后来那么主流。

GPT-3:把 few-shot / in-context learning 正式推到中心

GPT-3 的论文标题《Language Models are Few-Shot Learners》已经说明了一切。它最关键的观察不是“模型更大了”,而是:

当模型规模足够大时,只通过在上下文里给少量示例,模型就能在很多任务上表现出相当强的适配能力。

这就是后来被广泛讨论的 few-shot learning / in-context learning。对工程世界来说,它的意义非常大:

  • 你不一定每个任务都要重新训练模型。
  • 很多需求可以先通过 prompt 组织来快速验证。
  • 上下文本身开始像一种“临时参数”或“软编程接口”。

从产品史角度看,GPT-3 才真正让“通用大模型平台”成为主流想象。

统一主线:为什么自回归预训练会走到今天

把三代连起来看,GPT 路线的核心优势可以概括成四点:

1. 目标函数极其统一

下一个 token 预测虽然简单,却天然适合大规模文本数据,也天然适合生成场景。

2. 结构高度统一

同一个 decoder-only 主干,可以从预训练一路延伸到聊天、写作、代码补全、工具调用等大量场景。

3. 扩容路径清晰

参数、数据、上下文窗口和训练预算都可以沿着相对连续的方向增长。

4. 产品接口自然

用户本来就是通过文本与模型交互的,而 decoder-only 模型本身就是以“继续生成文本”为核心能力,因此产品化阻力较小。

这也是为什么后来即使出现了很多强大的 encoder-only 或 encoder-decoder 工作,通用助手和聊天模型主舞台仍然基本落在 GPT 路线上。

GPT-1 到 GPT-3 的真正变化,不只是参数量

如果只把 GPT 发展看成“117M → 1.5B → 175B”,就会错过真正重要的变化。更值得记住的有三层:

1. 从“迁移学习”到“上下文学习”

GPT-1 重点是预训练后微调,GPT-3 重点是提示后直接做任务。任务适配方式发生了本质变化。

2. 从“特定模型”到“通用平台”

GPT-2 和 GPT-3 让大家开始相信,一个模型可以服务大量需求,而不是每个任务单独做一个系统。

3. 从“能力展示”到“规模法则兑现”

GPT-3 不只是效果更好,它和 Scaling Laws for Neural Language Models 形成了非常强的相互印证:规模扩大确实会带来可预测的能力跃迁。

为什么 GPT 路线最终压过了 BERT 路线

把 GPT 与 BERT 对照看,会更容易理解现代大模型的方向:

  • BERT 更擅长理解、编码和下游微调。
  • GPT 更擅长统一生成接口和开放式任务。

随着行业需求越来越集中到聊天、问答、写作、代码、agent 和多轮交互,decoder-only 路线天然更顺手。换句话说,不是 BERT 不强,而是 GPT 更符合“一个通用助手该怎样工作”的产品形态。

局限:GPT 系列也不是一路完美

GPT 路线的成功很大,但它同样暴露出一系列问题:

  • 训练和推理成本随规模迅速上升。
  • 生成模型更容易出现幻觉和不受控行为。
  • few-shot 很强,但并不稳定,提示写法影响很大。
  • 长上下文成本高,且上下文利用质量并不总理想。

这些问题后来分别催生了:

  • RLHF / DPO / Constitutional AI 等对齐路线
  • FlashAttention / KV Cache / PagedAttention 等系统优化
  • RAG / Agent / 工具调用等外部能力增强

也就是说,GPT 成功之后,后续几年大量工作其实都在给 GPT 路线补上“更稳、更省、更可控”的能力。

从今天看,GPT 系列留下了什么

到 2026 年再看,GPT-1 到 GPT-3 至少留下了五项长期影响:

  1. 统一自回归预训练成为通用大模型的主干路线。
  2. prompt 成为一种正式的模型编程接口。
  3. few-shot / in-context learning 成为重要研究对象。
  4. “规模带来新能力”从经验判断变成了可被反复观察的事实。
  5. 模型平台化、API 化、产品化的想象被彻底打开。

这就是为什么即使今天模型名已经从 GPT 扩展到更多家族,很多核心设计语言依然沿袭自这里。

读这条主线时最该抓住什么

如果你想把 GPT 系列读明白,最值得抓住的是:

  1. GPT-1 证明“生成式预训练 + 微调”成立。
  2. GPT-2 让社区看到无监督多任务潜力。
  3. GPT-3 把 few-shot / in-context learning 推到中心。
  4. 三者共同定义了现代通用生成式大模型的工作方式。

理解这四点,再去看后来的 ChatGPT、Claude、LLaMA、Gemini,会更容易看懂它们哪些是在延续 GPT 主线,哪些是在补 GPT 主线的短板。

延伸阅读

相关内容

沿着相近主题继续阅读,加深对方法边界与实践场景的理解。