涌现能力：真实，还是海市蜃楼？

大模型似乎会突然「领悟」小模型所缺的技能。那究竟是真实的相变，还是我们衡量方式制造的把戏？诚实的答案是：两者都有。

research2026-04-03 08:35 KST·主编·7 分钟

关于大语言模型，最引人注目也最受争论的论断之一，是它们展现出涌现能力：那些在较小模型中不存在、却在模型跨越某个规模阈值时仿佛一下子全部出现的技能。这个画面很有戏剧性——一种本来根本不在那里的能力，突然被接通了。它既助燃了人们对扩展将通向何方的兴奋，也助燃了不安。它也遭到了猛烈的质疑。诚实的图景，比炒作或祛魅任何一方所暗示的都更有意思。

居于这一切核心的问题是：当一个大模型能做某件小模型做不到的事时，那是模型中真正的相变，还是我们选定的衡量方式所产生的假象？ 把这个搞对，对于我们如何思考扩展将带来和不会带来什么，至关重要。

「涌现」本应意味着什么

这个论断是具体的。一种能力被称为涌现，如果一个模型在某项任务上的表现，在很大一段较小尺寸范围内都持平且近乎无用，然后在模型越过某个规模后陡然上升。对着尺寸作图，曲线看起来像一条水平线后面跟着一道突然向上的悬崖。这种能力显得在性质上是全新的，而不是此前事物的平滑延续。

这比「更大的模型更好」是一个更强的论断。整体上更好是预期之中的，也遵循扩展定律（scaling laws）那些平滑的曲线。涌现说的是某种额外的东西：某些能力不是被逐渐获得的，而是越过一个阈值后猛地存在起来，其方式是你看着较小模型也无法预测的。如果属实，那将意味着扩展藏着惊喜——一些我们在它们突然到来之前看不到的能力。

人们为什么相信它

这种信念并非凭空而来。在许多任务上，研究者确实观察到了这种模式：小型和中型模型得分如同随机，然后较大的模型得分良好，而那道跃升似乎集中在一个狭窄的规模带里。多步推理、某些种类的算术、遵循复杂的指令——这些常常看起来像是有个只在某个尺寸之上才被拨动的开关。

对于这类任务，较小的模型真的显得无能为力，而不仅仅是更差。一个每次都把多步问题完全做错的模型，看起来与一个能做对的模型有本质上的不同。从「从不」到「经常」的飞跃，感觉像是性质的改变，而不是程度的改变。那种直觉——某种新东西出现了——正是让涌现成为一个如此引人入胜、被广泛重复的想法的原因。

那个令人泄气的反驳

接着来了一个尖锐的批评，而它落在了衡量上。许多展现出涌现的任务，是以非此即彼的方式打分的：模型只有给出完全正确的答案才得满分，其余一律得零。在一个多步问题上，做对了十步中的九步，按那个规则仍然得零。

在这样一个度量下，一个模型可以在稳步地、隐形地改进——越来越多的步骤做对——而它的得分却被钉在零，因为它还没越过那条「全部做对」的线。然后，当它终于越过那条线时，得分一跃而起。底层的能力是平滑生长的；只是那个严苛的打分规则让它看起来像一次突然的跃升。用一个更温和、给予部分分数的度量来衡量，许多所谓涌现的曲线，就拉直成了扩展定律所预测的同一种平滑改进。按这个观点，悬崖在尺子里，不在模型里。

为什么这还不是故事的结尾

得出「涌现完全是衡量的错觉」这一结论会很利落。但那走得太远了。这个批评令人信服地表明，某些表面的涌现是度量的假象，而非此即彼的打分能把平滑的进展制造成悬崖。它并没有表明每一个出人意料的能力增益都能如此解释。

即便底层曲线是平滑的，仍然存在一种真实而重要的意义，让一种能力只有越过某一点才变得可用。一种技术上存在、却只在千分之一的次数里完成任务的能力，从实用角度看就是缺席的；同一种能力大多数时候都能完成任务，从实用角度看就是新的。从一个使用模型的人的立场看，即便内部曲线一路都是渐进的，那个转变也很重要。底下平滑，仍然可以意味着一个对使用而言有意义的阈值。

厘清三种不同的论断

一旦你把人们用「涌现」所指的三样东西分开，混乱就澄清了。第一是平滑的能力生长，这只是扩展如预期般运作，并不出人意料。第二是严苛度量造成的陡峭曲线，这在很大程度上是假象，可以通过更好的衡量被抹平。第三是真正的实用性阈值，在那里一种逐渐改进的能力从不实用越过到实用，并在实践中改变了模型擅长什么。

大多数激烈的争论，都来自把这些当作同一个论断来争。那个令人泄气的批评主要瞄准第二种。那些兴奋的报道大多注意到了第三种。而第一种则是这一切的底色。关于涌现是否「真实」的分歧，往往最终是关于某人心里想的是这三种中的哪一种的分歧。

这对预测未来意味着什么

实际的利害关系在于预测。如果能力真的从无到有、越过不可预测的阈值出现，那么扩展将真正变得难以推理——你永远无法知道下一个模型会突然能做什么。度量批评在这里部分地令人安心：一旦你仔细衡量，许多表面的不可预测性就消解成了平滑、可预测的趋势。

但这份安心是不完整的。即便底层进展是平滑的，也能在一个模型有用于什么上产生突变，而那些实用阈值，比它们之下平滑的曲线更难预测。所以负责任的立场，既不是「任何东西都可能在任何时候涌现」，也不是「从来没有什么真正涌现」。而是：能力倾向于平滑生长，而有用性可以突然转变，仔细的衡量正是让你能分辨哪个是哪个的东西。

总结

涌现能力既真实又是海市蜃楼，取决于你指的是什么。 那种戏剧性的、开关被接通般的外观，大多是非此即彼打分的假象；温和地衡量，曲线是平滑的，扩展表现得可预测。但一种逐渐改进的能力，仍然可以越过一个从无用到有用的真实阈值，而那个实用的跃升很重要，即便模型内部并没有发生任何不连续的事。把平滑生长、度量假象和实用性阈值分开，这场争论就不再是一场是或否的争斗，而成为它本应一直是的样子：一个关于仔细衡量的问题。

#emergence#scaling#evaluation#research

原始来源

arXiv — machine learning research Stanford CRFM — HELM