缩放定律：更大，但为什么

"把它做大"听起来像句口号，而不是一门科学。缩放定律正是把它变成科学的东西。这里讲清楚它们到底说了什么、又没说什么。

research2026-04-17 16:38 KST·主编·7 分钟

“直接把它做大”是对现代 AI 进步如何发生的一种漫画式刻画，而像大多数漫画一样，它里头藏着一张真实的脸。这个想法的严肃版本叫作缩放定律（scaling law），它是这个领域里最具影响力的发现之一。缩放定律正是把“越大越好”从一个直觉，变成某种可预测到足以围绕它规划数十亿美元项目的东西。理解它们，能厘清许多关于模型为何持续进步、以及那些进步要付出什么代价的困惑。

核心发现，直白地说：当你增大一个模型的规模、它训练所用的数据量，以及训练所花的计算量时，模型的性能会以一种平滑、可预测的方式改善。 不是靠侥幸的跳跃——而是平滑地，且可靠到足以预测。

缩放定律究竟主张了什么

缩放定律是你投入训练的资源、与该模型在预测文本上表现得有多好之间的一种被观测到的关系。研究者通过训练许多不同规模、不同数据量、不同计算量的模型，并把性能如何变化画出来，来度量这一点。

他们发现的不是噪声。这些点落在一条出奇干净的曲线上。性能随资源增长而稳步改善，而且改善得足够有规律，以至于你可以外推：给定一个小模型的表现，你就能以惊人的准确度预测一个大得多的模型会如何表现。那种可预测性，正是缩放定律之所以重要的全部原因。它们把造模型从靠猜，变成了某种更接近工程的事——你能在花钱之前，估算出一笔给定的投入会买到什么。

三种要素驱动着这条曲线：模型里的参数数量、训练数据的数量，以及所用的总计算量。把其中任何一个往上推、并与其余的保持平衡，性能就会沿着预期的路径改善。

为什么更大持续有帮助

人们有理由预期，一味堆叠规模会很快撞上一堵墙。毕竟一个模型不过是在预测下一片文本。为什么把它做大十倍会持续带来回报，而不是趋于饱和？

直觉在于，语言以及它背后的世界都极其丰富。可供学习的模式近乎取之不尽：更罕见的词、更微妙的语法结构、更不常见的事实、更曲折的推理链、更专门的领域。一个小模型只能捕捉最常见、最显而易见的规律。一个在更多数据上训练的更大模型，则有能力吸收那条长尾——那些极少出现、却合起来构成真实语言巨大一部分的模式。

所以缩放之所以有效，并不是因为更大的模型神奇地更聪明。它有效，是因为有那么多结构待学，而模型此前还没大到足以把它们全部捕捉。增添容量和数据，让它们能更深地探入那片结构。曲线持续向下弯折，是因为可学习模式的供给还没有用尽。

规模与数据之间的平衡

缩放定律最有用的精细化之一是：这三种要素必须一起增长。把一个模型做得巨大、却让它在数据上挨饿，是不够的；给一个微小的模型灌入它消化不了的、超量的文本，也不行。对一笔给定的计算量，存在一个平衡的配比：一个特定规模的模型，在特定数量的数据上训练。

在这个领域的早期，模型相对于它们所见的数据，常常被做得非常大。后来的工作表明，对同一笔计算预算，一个略小、却在多得多的数据上训练的模型，可以表现更好。教训不是“规模没那么重要”，而是“规模与数据必须相匹配”。以正确的比例花掉你的计算量，和你拥有多少计算量同等重要。

正是这个平衡，让你无法仅凭一个模型的参数量就读出它的质量。一个在更多数据上、以更好平衡训练出来的较小模型，可以胜过一个在过少数据上训练的较大模型。那个抢眼的数字只是故事的一部分。

为什么可预测性改变了一切

缩放定律的实用威力在于预测。训练一个前沿模型极其昂贵，而你只有寥寥几次机会去做。没有缩放定律，每一次尝试都会是一场赌博：造出你负担得起的最大的东西，然后祈祷它能行。

缩放定律去掉了这场赌博的大半。因为性能遵循一条可预测的曲线，团队可以训练一系列小而便宜的模型、拟合出曲线，并在投入构建之前外推、估算一个大得多的模型会如何表现。他们还能用这些定律来决定如何花掉一笔固定的预算——把模型做多大、收集多少数据——以求得到最好的结果。这正是为什么缩放定律有时被描述为现代 AI 的规划工具。它们把一场高风险的下注，转化为一项精算过的投资。

那个陷阱：缩放定律度量的是什么

这里有一条至关重要的小字。缩放定律预测的是一个模型在它的训练目标上做得有多好——大体上，就是它预测文本预测得有多好。它们并不直接预测人们真正在意的那些东西，比如模型能否推理通一个难题、能否遵循指令，或能否避免胡编。

两者之间的联系是真实的，但松散。更好的文本预测往往伴随着更好的下游能力，但这种关系并不齐整，而训练目标上的改善，并不干净利落地映射到任何具体任务上的改善。一个模型可以在它的目标上变得可度量地更好，而你在意的某项具体能力却几乎纹丝不动，或出人意料地跃升。所以缩放定律是关于某一个量的可靠向导，而对那个量本应支撑的那些能力，它只是个间接的向导。

缩放没有承诺什么

人们很容易把缩放定律读作一种保证：更多资源就能解决一切。它们承诺的远没有那么多。它们描述的是一个在所研究范围内观测到的趋势，而一条迄今所见的平滑曲线，并不是一纸保证它永远延续下去的合同。每一个这样的趋势最终都会撞上某种极限——可用数据的极限、有用计算的极限，或剩下可学模式的极限。

缩放本身也不会交付判断力、可靠性或诚实。那些来自一个模型在原始能力构建之后被如何塑造，而不是来自规模本身。而且缩放的代价增长得和它的好处一样快：巨量的计算、能源和数据需求。缩放定律解释了为什么更大持续有帮助，也帮助规划如何花掉资源，但它们是对一个模式的描述，而不是一条许诺这个模式永不终结的自然法则。

总结

缩放定律是这样一个发现：当你把模型规模、数据和计算量一起增大时，模型性能会平滑而可预测地改善。 那种可预测性才是它真正的意义所在：它把“把它做大”从一句口号变成一件规划工具，让团队得以预测和编制预算，而不是去赌。但这些定律度量的是一个模型预测文本预测得有多好，而不是我们最终想要的那些具体能力，而且它们描述的是一个趋势，而非永远的保证。更大之所以持续有帮助，是因为还有那么多结构待学——而恰如其分地读出这些定律所主张的、不多不少，正是你避免过度解读它们的方法。

#scaling-laws#compute#training#research

原始来源

arXiv — machine learning research Stanford CRFM — HELM