Scaling Laws for Neural Language Models

系统研究参数量、数据量、计算量与损失之间的幂律关系,奠定规模化训练方法论。

年份与会议

2020 · arXiv

作者

Jared Kaplan、Sam McCandlish、Tom Henighan

主题

Scaling Laws

收录时间

2020/01/23

标签

原文链接

https://arxiv.org/abs/2001.08361

核心贡献

  • 给出可计算预算下的模型/数据配比启发
  • 解释“更大模型 + 更多数据”的有效性