模型的“参数”到底是什么

“数十亿参数”被人像念马力一样挂在嘴边。本文谈参数究竟是什么、它的数量为何重要，以及为什么更大并不自动意味着更好。

models2026-04-21 18:59 KST·主编·7 分钟

每一次模型发布，似乎都带着一个数字：多少多少十亿参数。这个数字被人像念汽车规格表上的马力一样挂在嘴边，仿佛更大就自动意味着更好。但大多数复述这个数字的人，说不清参数到底是什么，而这道缝隙会引出糟糕的直觉——追逐参数数量、想当然地以为更大的模型一定更聪明，或者误读这个数字关于成本和能力告诉了你什么。本文用朴素的语言解释参数究竟是什么，以及它的数量能预测什么、不能预测什么。

参数是一个学到的数字

往最简单里说：参数是模型在训练过程中调整的一个单独的数字。就这样。从机械角度看，模型就是一大堆按某种结构排列的数字，外加一套把输入与这些数字结合起来产出输出的规则。参数就是那些数字。"七十亿参数"大致意味着模型内部有七十亿个可调的单独数值。

这些数字不是工程师写出来的。它们一开始基本是随机的，然后在整个训练过程中被一点一点地推动——每当模型的预测出错，许多参数就轻微移动一下，好让下一次同类错误更不容易发生。在海量数据上经过足够多次这样的调整后，这些参数稳定到某些数值上，编码下模型学到的种种规律。一个模型的"知识"并不是以可读的事实形式存储的；它分布在这数十亿个数字之中，以一种没有任何人类直接执笔的方式。

权重，以及一个有用的类比

参数常被称为权重（weights），这个名字暗示了一幅有用的图景。把模型想象成一张庞大的连接网络，每条连接都有一个强度——即一片内部信息对另一片有多大影响。那些强度就是权重。高权重意味着强影响；低权重或负权重意味着弱影响或相反的影响。

当文本流经模型时，它被反复地与这些权重结合——这里放大，那里抑制——而所有这些加权结合的累积效应，就是产出下一个 token 的预测。训练就是寻找正确强度的过程：为了让模型预测得好，哪些连接应当举足轻重，哪些应当几乎无关紧要。所以当你听到"模型学会了"，物理上发生的事，是数量庞大的这些权重移动到了更好的数值上。

这就是为什么你没法打开一个模型，在某处找到"巴黎是法国的首都"这条事实白纸黑字地写着。这条事实，就模型持有它的程度而言，是作为一种横跨众多权重、共同协作的特定模式存在的。模型里的知识是弥散的，不是归档的。

这个数量到底告诉你什么

参数数量是对一个模型容量的粗略度量——即它原则上能学到和能表示多少。更多参数意味着更多存储规律的空间，以及更多刻画复杂关系的灵活性。在其他条件相同的情况下，更大的模型有更高的上限。

但"其他条件相同"这几个字承担了大量工作，而容量并不等于已实现的能力。这个数量没有直接告诉你的几件事：

模型实际上有多好。 容量是潜力。一个用糟糕数据训练、或训练不足的大模型，可能被一个训练得当的小模型击败。这个数字告诉你容器的大小，而非里面装的东西的质量。
它擅长什么。 两个尺寸相近的模型，会因训练数据和调优不同而拥有截然不同的强项。这个数字对此只字不提。
它是否是适合你的选择。 一个更快、更便宜的小模型，可能把你的任务做得完美无缺。原始容量的前沿，很少是大多数实际工作该待的地方。

所以参数数量是实打实的信息，但它更接近"发动机排量"，而非"这辆车送你上班有多快"——相关，却远非全部。

为什么更大并不自动更好

有一种顽固的直觉，认为参数更多的模型一定更聪明。实际上这种关系松散得多，原因有好几个。

数据和训练极其重要。 一个模型的质量取决于它见过多少好数据、被训练得多好，而不只取决于它的尺寸。从未被恰当填满的容量是浪费。

技术随时间进步。 更好的训练方法和更好的数据筛选，意味着一个更新、更小的模型可以追平甚至超越一个更老、更大的模型。一年前的尺寸，买不到今天同样尺寸所能买到的东西。

更大运行起来更贵。 每多一个参数，都会增加使用这个模型所需的算力、内存和延迟。更大的模型通常每次请求更慢、更贵。对许多应用来说，这份成本换不来那点边际能力提升——有时对手头任务而言甚至毫无提升。

要点是：参数数量是一项判断的输入之一，而非判断本身。纯凭尺寸去比较两个模型，是一种很容易选错的办法。

激活参数与总参数

有一个值得知道的细节，因为它会让读模型规格的人犯迷糊。一些现代架构并不对每个输入都动用它全部的参数。在这类设计里，模型可以拥有一个非常大的总参数量，却只激活其中一小部分参数来处理任何给定的 token。

这之所以要紧，是因为它打破了尺寸与成本之间的简单关联。一个模型可能标榜一个庞大的总参数量，运行成本却接近一个小得多的模型，因为在任何一次具体请求中，大多数参数都闲置着。所以在比较模型时，值得弄清楚一个被引用的数字是参数总数、还是每个输入实际用到的数量——它们关于能力和成本可能讲出非常不同的故事。

在现实中该如何读参数数量

下次你看到一个参数数字时，几个习惯能让你保持诚实。把它当作一个粗略的容量指标，而非质量分数。记住训练数据和方法可能比原始尺寸更要紧，尤其是在比较来自不同年代的模型时。假定更大通常意味着运行起来更慢、更贵，并把这一点与你的实际需求权衡。在就成本下结论之前，先查清楚这个数字指的是总参数还是激活参数。带着这些注意事项，这个数量是有用的背景信息。没有它们，它就是一个引人得出错误结论的数字。

总结

参数是一个学到的数字——是模型在训练中调整、用以捕捉数据中规律的那数十亿个可调数值之一，通常称为权重。总数是对容量的粗略度量：即模型原则上能表示多少。它是实打实的信息，但它不是能力分数，不是质量的保证，也不是该用哪个模型的裁决。训练数据、方法、模型的年代，以及每个输入实际激活多少参数，对结果的塑造至少和那个头条数字一样大。读这个数量时，请像读规格表上的发动机排量那样：一条关于潜力的线索，绝非全部的故事。

#parameters#model-size#weights#scaling

原始来源

Hugging Face — Documentation Anthropic — Documentation