welclaiAI·TREND·DIGEST
模型

模型的“参数”到底是什么

“数十亿参数”被人像念马力一样挂在嘴边。本文谈参数究竟是什么、它的数量为何重要,以及为什么更大并不自动意味着更好。

models2026-04-21 18:59 KST·主编·7 分钟

每一次模型发布,似乎都带着一个数字:多少多少十亿参数。这个数字被人像念汽车规格表上的马力一样挂在嘴边,仿佛更大就自动意味着更好。但大多数复述这个数字的人,说不清参数到底是什么,而这道缝隙会引出糟糕的直觉——追逐参数数量、想当然地以为更大的模型一定更聪明,或者误读这个数字关于成本和能力告诉了你什么。本文用朴素的语言解释参数究竟是什么,以及它的数量能预测什么、不能预测什么。

参数是一个学到的数字

往最简单里说:参数是模型在训练过程中调整的一个单独的数字。就这样。从机械角度看,模型就是一大堆按某种结构排列的数字,外加一套把输入与这些数字结合起来产出输出的规则。参数就是那些数字。"七十亿参数"大致意味着模型内部有七十亿个可调的单独数值。

这些数字不是工程师写出来的。它们一开始基本是随机的,然后在整个训练过程中被一点一点地推动——每当模型的预测出错,许多参数就轻微移动一下,好让下一次同类错误更不容易发生。在海量数据上经过足够多次这样的调整后,这些参数稳定到某些数值上,编码下模型学到的种种规律。一个模型的"知识"并不是以可读的事实形式存储的;它分布在这数十亿个数字之中,以一种没有任何人类直接执笔的方式。

权重,以及一个有用的类比

参数常被称为权重(weights),这个名字暗示了一幅有用的图景。把模型想象成一张庞大的连接网络,每条连接都有一个强度——即一片内部信息对另一片有多大影响。那些强度就是权重。高权重意味着强影响;低权重或负权重意味着弱影响或相反的影响。

当文本流经模型时,它被反复地与这些权重结合——这里放大,那里抑制——而所有这些加权结合的累积效应,就是产出下一个 token 的预测。训练就是寻找正确强度的过程:为了让模型预测得好,哪些连接应当举足轻重,哪些应当几乎无关紧要。所以当你听到"模型学会了",物理上发生的事,是数量庞大的这些权重移动到了更好的数值上。

这就是为什么你没法打开一个模型,在某处找到"巴黎是法国的首都"这条事实白纸黑字地写着。这条事实,就模型持有它的程度而言,是作为一种横跨众多权重、共同协作的特定模式存在的。模型里的知识是弥散的,不是归档的。

这个数量到底告诉你什么

参数数量是对一个模型容量的粗略度量——即它原则上能学到和能表示多少。更多参数意味着更多存储规律的空间,以及更多刻画复杂关系的灵活性。在其他条件相同的情况下,更大的模型有更高的上限。

但"其他条件相同"这几个字承担了大量工作,而容量并不等于已实现的能力。这个数量没有直接告诉你的几件事:

  • 模型实际上有多好。 容量是潜力。一个用糟糕数据训练、或训练不足的大模型,可能被一个训练得当的小模型击败。这个数字告诉你容器的大小,而非里面装的东西的质量。
  • 它擅长什么。 两个尺寸相近的模型,会因训练数据和调优不同而拥有截然不同的强项。这个数字对此只字不提。
  • 它是否是适合你的选择。 一个更快、更便宜的小模型,可能把你的任务做得完美无缺。原始容量的前沿,很少是大多数实际工作该待的地方。

所以参数数量是实打实的信息,但它更接近"发动机排量",而非"这辆车送你上班有多快"——相关,却远非全部。

为什么更大并不自动更好

有一种顽固的直觉,认为参数更多的模型一定更聪明。实际上这种关系松散得多,原因有好几个。

数据和训练极其重要。 一个模型的质量取决于它见过多少好数据、被训练得多好,而不只取决于它的尺寸。从未被恰当填满的容量是浪费。

技术随时间进步。 更好的训练方法和更好的数据筛选,意味着一个更新、更小的模型可以追平甚至超越一个更老、更大的模型。一年前的尺寸,买不到今天同样尺寸所能买到的东西。

更大运行起来更贵。 每多一个参数,都会增加使用这个模型所需的算力、内存和延迟。更大的模型通常每次请求更慢、更贵。对许多应用来说,这份成本换不来那点边际能力提升——有时对手头任务而言甚至毫无提升。

要点是:参数数量是一项判断的输入之一,而非判断本身。纯凭尺寸去比较两个模型,是一种很容易选错的办法。

激活参数与总参数

有一个值得知道的细节,因为它会让读模型规格的人犯迷糊。一些现代架构并不对每个输入都动用它全部的参数。在这类设计里,模型可以拥有一个非常大的参数量,却只激活其中一小部分参数来处理任何给定的 token。

这之所以要紧,是因为它打破了尺寸与成本之间的简单关联。一个模型可能标榜一个庞大的总参数量,运行成本却接近一个小得多的模型,因为在任何一次具体请求中,大多数参数都闲置着。所以在比较模型时,值得弄清楚一个被引用的数字是参数总数、还是每个输入实际用到的数量——它们关于能力和成本可能讲出非常不同的故事。

在现实中该如何读参数数量

下次你看到一个参数数字时,几个习惯能让你保持诚实。把它当作一个粗略的容量指标,而非质量分数。记住训练数据和方法可能比原始尺寸更要紧,尤其是在比较来自不同年代的模型时。假定更大通常意味着运行起来更慢、更贵,并把这一点与你的实际需求权衡。在就成本下结论之前,先查清楚这个数字指的是总参数还是激活参数。带着这些注意事项,这个数量是有用的背景信息。没有它们,它就是一个引人得出错误结论的数字。

总结

参数是一个学到的数字——是模型在训练中调整、用以捕捉数据中规律的那数十亿个可调数值之一,通常称为权重。总数是对容量的粗略度量:即模型原则上能表示多少。它是实打实的信息,但它不是能力分数,不是质量的保证,也不是该用哪个模型的裁决。训练数据、方法、模型的年代,以及每个输入实际激活多少参数,对结果的塑造至少和那个头条数字一样大。读这个数量时,请像读规格表上的发动机排量那样:一条关于潜力的线索,绝非全部的故事。

#parameters#model-size#weights#scaling