年份与会议
2020 · arXiv
系统研究参数量、数据量、计算量与损失之间的幂律关系,把“大模型该如何扩”从经验判断变成了可估算的问题。
年份与会议
2020 · arXiv
作者
Jared Kaplan、Sam McCandlish、Tom Henighan
主题
Scaling Laws
阅读时长
约 1 分钟
收录时间
2020/01/23
很多人第一次看到这篇论文时,会把它理解成一句口号:模型越大越强。其实原文真正回答的问题更细:
也就是说,Scaling Laws for Neural Language Models 研究的不是“是否扩”,而是“怎样扩才更划算”。这让大模型训练第一次从经验驱动,走向了近似可预测的工程规划。
在这篇论文之前,很多团队已经知道“大一点通常更好”,但仍然缺少系统方法去回答以下现实问题:
没有这类规律,训练大模型就像在黑箱里烧钱。论文的重要性就在于,它把参数量 N、数据量 D、计算量 C 与验证损失之间的关系抽象成了幂律。即便你记不住具体拟合系数,也能掌握一种非常实用的方法论:先在小规模上测趋势,再推断更大规模的收益边界。
论文观察到,随着模型参数、数据规模和计算预算扩大,语言模型的损失会以一种相当稳定的幂律形式下降。直观理解是:
最值得注意的是,这种下降不是“突然跳变”,而是相对平滑、可拟合的。这意味着规模化不是靠运气碰到某个神秘拐点,而是可以持续通过资源投入换取可预测收益。
论文最有工程价值的洞见,是固定训练预算下,参数量和训练 token 并不是越多越好,而是存在一个相对最优的比例。
如果模型太小、数据太多,你会浪费数据,因为模型容量不足以吃下这些信息。 如果模型太大、数据太少,你又会浪费参数,因为模型还没充分学习就停止训练。
这件事对工业界特别重要。因为训练预算在真实项目里几乎总是固定的:GPU 数量、训练天数、上线时间窗口都是有限的。Scaling law 的意义,正是在这种约束下给出一种资源分配的准绳。
不必死记论文中的拟合常数,更值得记住的是下面这个框架:
L(N): 当其他条件足够时,损失会随着参数量增加而下降。L(D): 当模型容量足够时,损失会随着数据量增加而下降。L(C): 当你把总算力提高时,可达到的最优损失也会继续下降。这三条关系组合在一起,给出一个非常实用的思维方式:
这也是为什么很多成熟团队都会在大训练前做一轮或多轮小型 sweep。不是因为他们不敢直接上大模型,而是因为 scaling law 告诉我们,小实验是可以提供结构性信息的。
这篇论文对今天的大模型训练流程至少有四个持续影响:
项目启动时,不能只拍脑袋说“上 70B 吧”。更合理的做法是先问:
小模型的价值不是得到最终效果,而是验证两个问题:
如果数据规模和数据质量都会进入最终收益函数,那么“找更多 token”就不再是唯一目标。去重、清洗、混合比例、领域覆盖、重复采样策略,都变成了训练效果的一部分。
更大的模型通常意味着更高的上线成本、显存占用和响应延迟。因此训练阶段的“最优”不一定等于产品阶段的“最优”。这也是为什么今天很多团队会在训练收益与推理成本之间做联合优化。
后续最常被放在一起讨论的工作,是 DeepMind 的 Chinchilla。两者不是相互否定,而是研究重心不同:
因此,阅读顺序上可以这样理解:
如果你在做训练规划,这两个视角都很重要。前者告诉你大方向,后者提醒你不要把所有预算都堆在参数量上。
这篇论文极有影响力,但并不意味着里面的比例和结论可以直接照搬到今天所有模型上。主要局限包括:
所以正确姿势不是“套公式做决定”,而是“用 scaling law 作为一阶近似,再用实验校正”。
哪怕在 2026 年回头看,这篇论文仍然有三层现实意义:
如果说《Attention Is All You Need》解决的是“该用什么架构”,那么《Scaling Laws for Neural Language Models》解决的就是“这个架构扩起来以后,怎样更有章法”。
沿着相近主题继续阅读,加深对方法边界与实践场景的理解。