年份与会议
2018 · NAACL
用 MLM 与 NSP 把双向 Transformer 预训练推向主流,重塑了 NLP 从预训练到下游微调的默认范式。
年份与会议
2018 · NAACL
作者
Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova
主题
预训练
阅读时长
约 1 分钟
收录时间
2018/10/11
在 BERT 之前,很多 NLP 系统仍然是“任务一个模型”的思路:情感分类一套网络,命名实体识别一套网络,问答又是一套网络。即便开始出现预训练语言模型,主流方式也更偏向单向语言建模,也就是从左到右预测下一个 token。
BERT 的历史意义在于,它把两个观念推成了行业默认:
从今天回头看,BERT 不只是“一篇效果很好的论文”,而是让整个 NLP 工业栈从特征工程时代,彻底进入了统一预训练表示时代。
如果模型只能从左往右读句子,那么某个词的表示只能利用左侧上下文。可在很多理解任务里,词义往往依赖两边共同决定。
例如在句子“他去银行开会”和“他在河岸边散步”里,“银行/岸边”附近词汇会共同影响理解。对于实体识别、问答、文本匹配等任务来说,模型如果不能同时看见前后文,就很难得到最自然的语义表示。
BERT 的核心切入点正是这里:能不能让 Transformer encoder 在预训练阶段就学会“双向读上下文”?
BERT 最出名的设计,就是 MLM(Masked Language Modeling)。做法很简单:
它解决了一个关键矛盾:
MLM 通过“挖空再填回去”的方式,让模型能够利用左右两侧信息,同时保留明确的训练目标。
这也是 BERT 和 GPT 路线最根本的分叉之一:
论文中的另一个训练目标是 NSP(Next Sentence Prediction)。作者会给模型两句话,要求判断第二句是不是第一句的真实后续。
这个目标的设计动机很直接:很多下游任务不只是句内理解,还涉及句间关系,例如:
NSP 希望让模型在预训练阶段就学到一定的句间连贯性知识。虽然之后 RoBERTa 等工作对 NSP 的必要性提出了质疑,但在 BERT 原始设计里,它反映了一个重要思路:预训练目标不只是词级预测,还可以尝试引入更高层次的结构信号。
BERT 另一项真正改变产业界的设计,不在预训练本身,而在“几乎所有下游任务都能用同一个骨架微调”。
做法通常是:
[CLS] 表示或 token 级表示上接一个很轻量的任务头。这意味着工程团队不再需要为每个 NLP 任务重新设计一整套模型结构。模型底座统一后,数据、评测和部署流程也变得更标准化。
从产品和研究视角看,BERT 最重要的价值之一就是:它把“统一底座 + 少量适配”的工作方式大规模验证成功了。
BERT 使用的是纯 encoder 结构,而不是完整的 encoder-decoder,也不是 decoder-only。原因在于:
这也让我们更容易理解后续模型分工:
因此,BERT 并不是“比 GPT 更先进”的终点,而是现代大模型家族中一条非常清晰的分支起点。
BERT 发布后,在多个经典 NLP 基准上刷新了当时最优结果,尤其在以下类型任务上表现非常强:
更重要的是,它不是靠为某个任务特制结构取胜,而是靠一套统一预训练表示,在多个任务上同时表现优秀。这让研究社区第一次强烈感受到:大规模通用预训练确实能够作为“语言理解底座”。
从方法论上看,BERT 至少改变了三件事:
之后做 NLP,几乎不再有人从随机初始化开始训练任务模型。大家默认先拿一个预训练底座,再做微调或继续预训练。
BERT 让研究者更强烈地意识到:即使目标任务数据有限,只要通用预训练足够强,下游能力也会显著受益。这为后来更大规模的 GPT、T5、PaLM、LLaMA 铺平了认知道路。
在 BERT 之后,很多工作不再只问“这个任务该怎么做”,而是问“能否学到一个足够通用的文本表示,再把任务头做得尽量轻”。
虽然 BERT 影响巨大,但它也有明显边界:
这也是为什么 BERT 在“理解类任务”中长期重要,但在通用生成式 AI 时代,主舞台逐渐转向 GPT 路线。
BERT 之后,围绕它迅速分化出大量工作:
从更长远的视角看,BERT 的真正遗产不是某个单点指标,而是“预训练底座”这件事本身。今天即便许多产品主要使用 decoder-only 大模型,embedding、reranker、分类器等组件里,BERT 思路仍然活得很好。
如果你现在读 BERT,最值得抓住的不是具体分数,而是下面四点:
把这四点想清楚,你再回头看 GPT、T5、LoRA、检索模型时,会更容易看懂它们各自站在什么位置。
沿着相近主题继续阅读,加深对方法边界与实践场景的理解。
从 GPT 的生成式预训练,到 GPT-2 的无监督多任务能力,再到 GPT-3 的 few-shot 涌现,这条路线定义了现代通用大模型的主舞台。
用更克制的参数规模、更长的训练 token 和一组细致的架构改造,证明开源基座模型也能逼近闭源大模型能力。
从数据准备、预训练、指令微调、偏好对齐到评测上线,建立一条完整、可落地的大模型训练工程地图。
从“模型为什么需要顺序感”讲到绝对位置、相对位置与 RoPE,建立长上下文位置建模的统一直觉。