BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 用 MLM 与 NSP 把双向 Transformer 预训练推向主流,重塑了 NLP 从预训练到下游微调的默认范式。 2018 · NAACL BERT 预训练 Transformer NLP