涌现能力:真实,还是海市蜃楼?
大模型似乎会突然「领悟」小模型所缺的技能。那究竟是真实的相变,还是我们衡量方式制造的把戏?诚实的答案是:两者都有。
关于大语言模型,最引人注目也最受争论的论断之一,是它们展现出涌现能力:那些在较小模型中不存在、却在模型跨越某个规模阈值时仿佛一下子全部出现的技能。这个画面很有戏剧性——一种本来根本不在那里的能力,突然被接通了。它既助燃了人们对扩展将通向何方的兴奋,也助燃了不安。它也遭到了猛烈的质疑。诚实的图景,比炒作或祛魅任何一方所暗示的都更有意思。
居于这一切核心的问题是:当一个大模型能做某件小模型做不到的事时,那是模型中真正的相变,还是我们选定的衡量方式所产生的假象? 把这个搞对,对于我们如何思考扩展将带来和不会带来什么,至关重要。
「涌现」本应意味着什么
这个论断是具体的。一种能力被称为涌现,如果一个模型在某项任务上的表现,在很大一段较小尺寸范围内都持平且近乎无用,然后在模型越过某个规模后陡然上升。对着尺寸作图,曲线看起来像一条水平线后面跟着一道突然向上的悬崖。这种能力显得在性质上是全新的,而不是此前事物的平滑延续。
这比「更大的模型更好」是一个更强的论断。整体上更好是预期之中的,也遵循扩展定律(scaling laws)那些平滑的曲线。涌现说的是某种额外的东西:某些能力不是被逐渐获得的,而是越过一个阈值后猛地存在起来,其方式是你看着较小模型也无法预测的。如果属实,那将意味着扩展藏着惊喜——一些我们在它们突然到来之前看不到的能力。
人们为什么相信它
这种信念并非凭空而来。在许多任务上,研究者确实观察到了这种模式:小型和中型模型得分如同随机,然后较大的模型得分良好,而那道跃升似乎集中在一个狭窄的规模带里。多步推理、某些种类的算术、遵循复杂的指令——这些常常看起来像是有个只在某个尺寸之上才被拨动的开关。
对于这类任务,较小的模型真的显得无能为力,而不仅仅是更差。一个每次都把多步问题完全做错的模型,看起来与一个能做对的模型有本质上的不同。从「从不」到「经常」的飞跃,感觉像是性质的改变,而不是程度的改变。那种直觉——某种新东西出现了——正是让涌现成为一个如此引人入胜、被广泛重复的想法的原因。
那个令人泄气的反驳
接着来了一个尖锐的批评,而它落在了衡量上。许多展现出涌现的任务,是以非此即彼的方式打分的:模型只有给出完全正确的答案才得满分,其余一律得零。在一个多步问题上,做对了十步中的九步,按那个规则仍然得零。
在这样一个度量下,一个模型可以在稳步地、隐形地改进——越来越多的步骤做对——而它的得分却被钉在零,因为它还没越过那条「全部做对」的线。然后,当它终于越过那条线时,得分一跃而起。底层的能力是平滑生长的;只是那个严苛的打分规则让它看起来像一次突然的跃升。用一个更温和、给予部分分数的度量来衡量,许多所谓涌现的曲线,就拉直成了扩展定律所预测的同一种平滑改进。按这个观点,悬崖在尺子里,不在模型里。
为什么这还不是故事的结尾
得出「涌现完全是衡量的错觉」这一结论会很利落。但那走得太远了。这个批评令人信服地表明,某些表面的涌现是度量的假象,而非此即彼的打分能把平滑的进展制造成悬崖。它并没有表明每一个出人意料的能力增益都能如此解释。
即便底层曲线是平滑的,仍然存在一种真实而重要的意义,让一种能力只有越过某一点才变得可用。一种技术上存在、却只在千分之一的次数里完成任务的能力,从实用角度看就是缺席的;同一种能力大多数时候都能完成任务,从实用角度看就是新的。从一个使用模型的人的立场看,即便内部曲线一路都是渐进的,那个转变也很重要。底下平滑,仍然可以意味着一个对使用而言有意义的阈值。
厘清三种不同的论断
一旦你把人们用「涌现」所指的三样东西分开,混乱就澄清了。第一是平滑的能力生长,这只是扩展如预期般运作,并不出人意料。第二是严苛度量造成的陡峭曲线,这在很大程度上是假象,可以通过更好的衡量被抹平。第三是真正的实用性阈值,在那里一种逐渐改进的能力从不实用越过到实用,并在实践中改变了模型擅长什么。
大多数激烈的争论,都来自把这些当作同一个论断来争。那个令人泄气的批评主要瞄准第二种。那些兴奋的报道大多注意到了第三种。而第一种则是这一切的底色。关于涌现是否「真实」的分歧,往往最终是关于某人心里想的是这三种中的哪一种的分歧。
这对预测未来意味着什么
实际的利害关系在于预测。如果能力真的从无到有、越过不可预测的阈值出现,那么扩展将真正变得难以推理——你永远无法知道下一个模型会突然能做什么。度量批评在这里部分地令人安心:一旦你仔细衡量,许多表面的不可预测性就消解成了平滑、可预测的趋势。
但这份安心是不完整的。即便底层进展是平滑的,也能在一个模型有用于什么上产生突变,而那些实用阈值,比它们之下平滑的曲线更难预测。所以负责任的立场,既不是「任何东西都可能在任何时候涌现」,也不是「从来没有什么真正涌现」。而是:能力倾向于平滑生长,而有用性可以突然转变,仔细的衡量正是让你能分辨哪个是哪个的东西。
总结
涌现能力既真实又是海市蜃楼,取决于你指的是什么。 那种戏剧性的、开关被接通般的外观,大多是非此即彼打分的假象;温和地衡量,曲线是平滑的,扩展表现得可预测。但一种逐渐改进的能力,仍然可以越过一个从无用到有用的真实阈值,而那个实用的跃升很重要,即便模型内部并没有发生任何不连续的事。把平滑生长、度量假象和实用性阈值分开,这场争论就不再是一场是或否的争斗,而成为它本应一直是的样子:一个关于仔细衡量的问题。
