缩放定律:更大,但为什么
"把它做大"听起来像句口号,而不是一门科学。缩放定律正是把它变成科学的东西。这里讲清楚它们到底说了什么、又没说什么。
“直接把它做大”是对现代 AI 进步如何发生的一种漫画式刻画,而像大多数漫画一样,它里头藏着一张真实的脸。这个想法的严肃版本叫作缩放定律(scaling law),它是这个领域里最具影响力的发现之一。缩放定律正是把“越大越好”从一个直觉,变成某种可预测到足以围绕它规划数十亿美元项目的东西。理解它们,能厘清许多关于模型为何持续进步、以及那些进步要付出什么代价的困惑。
核心发现,直白地说:当你增大一个模型的规模、它训练所用的数据量,以及训练所花的计算量时,模型的性能会以一种平滑、可预测的方式改善。 不是靠侥幸的跳跃——而是平滑地,且可靠到足以预测。
缩放定律究竟主张了什么
缩放定律是你投入训练的资源、与该模型在预测文本上表现得有多好之间的一种被观测到的关系。研究者通过训练许多不同规模、不同数据量、不同计算量的模型,并把性能如何变化画出来,来度量这一点。
他们发现的不是噪声。这些点落在一条出奇干净的曲线上。性能随资源增长而稳步改善,而且改善得足够有规律,以至于你可以外推:给定一个小模型的表现,你就能以惊人的准确度预测一个大得多的模型会如何表现。那种可预测性,正是缩放定律之所以重要的全部原因。它们把造模型从靠猜,变成了某种更接近工程的事——你能在花钱之前,估算出一笔给定的投入会买到什么。
三种要素驱动着这条曲线:模型里的参数数量、训练数据的数量,以及所用的总计算量。把其中任何一个往上推、并与其余的保持平衡,性能就会沿着预期的路径改善。
为什么更大持续有帮助
人们有理由预期,一味堆叠规模会很快撞上一堵墙。毕竟一个模型不过是在预测下一片文本。为什么把它做大十倍会持续带来回报,而不是趋于饱和?
直觉在于,语言以及它背后的世界都极其丰富。可供学习的模式近乎取之不尽:更罕见的词、更微妙的语法结构、更不常见的事实、更曲折的推理链、更专门的领域。一个小模型只能捕捉最常见、最显而易见的规律。一个在更多数据上训练的更大模型,则有能力吸收那条长尾——那些极少出现、却合起来构成真实语言巨大一部分的模式。
所以缩放之所以有效,并不是因为更大的模型神奇地更聪明。它有效,是因为有那么多结构待学,而模型此前还没大到足以把它们全部捕捉。增添容量和数据,让它们能更深地探入那片结构。曲线持续向下弯折,是因为可学习模式的供给还没有用尽。
规模与数据之间的平衡
缩放定律最有用的精细化之一是:这三种要素必须一起增长。把一个模型做得巨大、却让它在数据上挨饿,是不够的;给一个微小的模型灌入它消化不了的、超量的文本,也不行。对一笔给定的计算量,存在一个平衡的配比:一个特定规模的模型,在特定数量的数据上训练。
在这个领域的早期,模型相对于它们所见的数据,常常被做得非常大。后来的工作表明,对同一笔计算预算,一个略小、却在多得多的数据上训练的模型,可以表现更好。教训不是“规模没那么重要”,而是“规模与数据必须相匹配”。以正确的比例花掉你的计算量,和你拥有多少计算量同等重要。
正是这个平衡,让你无法仅凭一个模型的参数量就读出它的质量。一个在更多数据上、以更好平衡训练出来的较小模型,可以胜过一个在过少数据上训练的较大模型。那个抢眼的数字只是故事的一部分。
为什么可预测性改变了一切
缩放定律的实用威力在于预测。训练一个前沿模型极其昂贵,而你只有寥寥几次机会去做。没有缩放定律,每一次尝试都会是一场赌博:造出你负担得起的最大的东西,然后祈祷它能行。
缩放定律去掉了这场赌博的大半。因为性能遵循一条可预测的曲线,团队可以训练一系列小而便宜的模型、拟合出曲线,并在投入构建之前外推、估算一个大得多的模型会如何表现。他们还能用这些定律来决定如何花掉一笔固定的预算——把模型做多大、收集多少数据——以求得到最好的结果。这正是为什么缩放定律有时被描述为现代 AI 的规划工具。它们把一场高风险的下注,转化为一项精算过的投资。
那个陷阱:缩放定律度量的是什么
这里有一条至关重要的小字。缩放定律预测的是一个模型在它的训练目标上做得有多好——大体上,就是它预测文本预测得有多好。它们并不直接预测人们真正在意的那些东西,比如模型能否推理通一个难题、能否遵循指令,或能否避免胡编。
两者之间的联系是真实的,但松散。更好的文本预测往往伴随着更好的下游能力,但这种关系并不齐整,而训练目标上的改善,并不干净利落地映射到任何具体任务上的改善。一个模型可以在它的目标上变得可度量地更好,而你在意的某项具体能力却几乎纹丝不动,或出人意料地跃升。所以缩放定律是关于某一个量的可靠向导,而对那个量本应支撑的那些能力,它只是个间接的向导。
缩放没有承诺什么
人们很容易把缩放定律读作一种保证:更多资源就能解决一切。它们承诺的远没有那么多。它们描述的是一个在所研究范围内观测到的趋势,而一条迄今所见的平滑曲线,并不是一纸保证它永远延续下去的合同。每一个这样的趋势最终都会撞上某种极限——可用数据的极限、有用计算的极限,或剩下可学模式的极限。
缩放本身也不会交付判断力、可靠性或诚实。那些来自一个模型在原始能力构建之后被如何塑造,而不是来自规模本身。而且缩放的代价增长得和它的好处一样快:巨量的计算、能源和数据需求。缩放定律解释了为什么更大持续有帮助,也帮助规划如何花掉资源,但它们是对一个模式的描述,而不是一条许诺这个模式永不终结的自然法则。
总结
缩放定律是这样一个发现:当你把模型规模、数据和计算量一起增大时,模型性能会平滑而可预测地改善。 那种可预测性才是它真正的意义所在:它把“把它做大”从一句口号变成一件规划工具,让团队得以预测和编制预算,而不是去赌。但这些定律度量的是一个模型预测文本预测得有多好,而不是我们最终想要的那些具体能力,而且它们描述的是一个趋势,而非永远的保证。更大之所以持续有帮助,是因为还有那么多结构待学——而恰如其分地读出这些定律所主张的、不多不少,正是你避免过度解读它们的方法。
