welclaiAI·TREND·DIGEST
模型

推理模型:“思考”token到底做了什么

"推理模型会先把问题想清楚再作答。那段隐藏的思考过程要花时间、耗token——而且只有在合适的任务上才划算。"

models2026-04-29 14:40 KST·主编·7 分钟

近来有一类较新的模型常被称为“推理”或“思考”模型,这个名字确实点出了它们的特点——但也容易让人误会。这些模型并不像人那样思考。它们所做的,是在给出最终答案之前,多花一段生成过程,一步步把问题理清楚。这段中间过程有时被称为“思考token”(thinking tokens),它正是这一类模型的定义性特征。它能在某些问题上大幅提升答案质量,也可能在另一些问题上白白增加成本与延迟。懂得分辨这两者,正是用好这类模型与为之多付钱之间的分界线。

本文将解释“思考”这一步究竟是什么、为什么有帮助、要付出什么代价,以及如何判断推理模型是真正合适的工具,而不只是更贵的那一个。

与标准模型的区别

标准模型在拿到一个问题后,会立即开始生成答案,从第一个词起逐个token地输出回复。推理模型则在中间插入了一个阶段。在写出你看到的答案之前,它会先生成一段中间文本——把问题摊开、考虑步骤、逐步推敲。只有在这段思考之后,它才产出最终的回复。

那段中间文本就是“思考”。它往往对用户隐藏,只展示最终答案,但它仍然被生成了,这意味着它仍要花时间、仍要耗token。可以记住一个简单的心智模型:标准模型直接作答;推理模型先思考,再作答。这一类模型所有的独特之处——它的长处、它的成本、它的恰当用法——都源自这多出来的一个阶段。

为什么“想清楚”有帮助

这多出来的一步之所以能改善答案,要回到生成本身是如何运作的。模型基于此前的所有内容来产出每一个token,因此页面上已有的文本会塑造接下来的内容。当模型在一个困难的、多步骤的问题上直接跳到答案时,它是在还没铺好支撑结论的中间步骤之前就先下了结论——而一旦早期的某个token出了错,后面的一切都会在这个错误之上继续累积。

通过先生成自己的思考过程,推理模型给了自己可供依托的中间步骤。每一步都成为下一步的上下文,于是一个复杂的问题被拆解成一连串更小的动作,而不是一跃而就。这正是为什么收益在那些真正包含多个步骤的问题上最明显——数学、逻辑、细致的分析、复杂的代码——这些问题的答案取决于一系列子结论是否都对。思考不是装饰,它是最终答案赖以站立的脚手架。

它的代价

思考阶段并非免费,而它的代价恰恰就是生成的代价,因为它本身就是生成。其中两点尤为关键。

第一是延迟。 生成思考过程要花时间,答案才会出现。对同一个问题,推理模型比标准模型响应更慢,有时慢得明显,因为它在产出一大段用户从未要求阅读的文本。对任何讲求速度的交互场景,这种延迟都是一笔实打实的代价。

第二是token成本。 思考token属于生成的输出,而生成的输出通常会被计费,即便它对用户隐藏。因此推理模型每个问题的成本可能比标准模型高出不少,因为你在最终答案之外还要为全部思考过程买单。一段简短的可见回复,背后可能压着一大坨已经付了钱的隐藏推理。这两项成本都不是缺陷——它们是这个多出来的阶段的价格——但只有当这个阶段真正改善了答案时,它们才划算。

什么时候用推理模型才值得

决策准则直接由这个取舍推出:当问题的难度足以抵得上额外的时间和token时,就用推理模型,否则不用。有些问题确实又难又多步——一个棘手的逻辑推演、一道数学题、一段复杂的分析、一段必须同时满足多个相互制约条件的代码。在这些问题上,思考过程实质性地提升了正确率,多付出的成本买来了更好的答案。这正是推理模型大放异彩之处。

但许多问题并非如此。从文档里取一个事实、改写一个句子、给一小段文本分类、回答一个简单直接的问题——这些都没有多个步骤可供推敲,于是思考阶段只增加了延迟和成本,对答案却几乎或完全没有改变。在这里用推理模型就是大材小用:你多付了溢价、等得更久,换来的答案标准模型本可以同样出色地给出,而且更快、更省。这种浪费在你查看账单和响应时间之前是看不见的。

思考并非通往真相的窗口

人们很容易把推理模型的思考过程读作它如何得出答案的透明解释——一份你可以信赖的论证。要当心。思考文本本身也是生成的输出,由与其他一切相同的概率过程产出。它常常确实反映了一段真切的、对模型有帮助的推敲,但它并不是模型内部计算的、保证忠实的日志,它可能包含看似合理却实际错误的步骤。把思考过程当作有用的上下文和调试辅助,而不是当作证明。一条自信的推理链照样可以抵达一个自信的错误,而详尽的思考过程本身并不能证明答案就是对的。

实际中如何选择

实务做法和评估任何模型一样:在你自己的任务上测试,而不是想当然。取一组能代表你的应用实际处理的问题,就在这些输入上把推理模型和标准模型对比一番,同时盯住三件事——答案质量、延迟和token成本。如果推理模型在你的问题上带来的质量提升,大到足以抵得上更慢、更贵的回复,那它就赢得了一席之地。如果质量相当,那标准模型才是更好的选择,而推理溢价纯属浪费。

往往最好的设计是按难度路由:把真正困难的问题送给推理模型,把常规问题送给标准模型,让每个问题只为它所需要的思考付费。默认对每一个请求都伸手去拿推理模型,是常见且昂贵的错误——它在那些从不需要思考的简单问题上白白花掉了时间和token。

总结

推理模型多出了一个阶段:它们在最终答案之前先生成中间思考过程,而这段思考——那些“思考token”——正是它们与众不同之处。在困难的多步骤问题上,它通过给模型提供可供依托的脚手架,确实提升了答案质量;但它同时耗费延迟和token,因为思考是生成的输出,即便隐藏你也得为之付费。在难度配得上溢价的地方用这类模型,在配不上的地方用标准模型,把可见的推理当作有益的辅助而非保证的真相,并让在你自己问题上的测试来做决定。思考恰恰在需要思考之处才强大——在其他一切地方它都是死重。

#reasoning-models#thinking-tokens#inference#model-selection