推理的经济学:为什么「便宜的 AI」加起来还是不便宜
单次 AI 调用看起来几乎免费。那为什么 AI 账单会膨胀?用通俗的语言,带你认识那把分分钱变成真金白银的经济学。
你第一次调用 AI 模型时,成本感觉像是个舍入误差。一个问题,一个答案,几分之一美分。于是很容易得出结论:推理基本上是免费的,从此不再多想。然后功能上线了,用量增长了,账单带着一个谁都没料到的数字到来了。推理的经济学并不神秘,但它违反直觉:微小的单次调用成本,会与规模、重复和设计选择以悄悄复利的方式相互作用。本文解释为什么「便宜的 AI」加起来还是不便宜——不引用价格,因为价格一直在变。
你实际在为什么付费
推理是运行一个训练好的模型以产生答案的行为。不像传统软件——多服务一个用户往往几乎免费——每一次 AI 回应都消耗真实的计算,而这份计算就是你付费的对象,无论你是从供应商那里租用它,还是在自己拥有的硬件上运行。不存在「服务一次,永远复制」。每个答案都是新鲜生成的,而生成是有成本的。
最重要的单位是 token:大致是一小块文本,既包括你发送的,也包括模型返回的。大多数推理成本随着流入和流出的 token 数量而变化。这是关键的心智模型:你不是按「问题」付费,而是按 token 付费,而 token 累积得比问题快得多。一个感觉像是一句小请求的东西,背后可能携带着数千个 token 的上下文。
为什么按单次调用的直觉会误导人
陷阱在于从单次调用去推理。一次交互很便宜,于是本能是去乘:便宜的东西乘以一些用户,肯定还是便宜的。但有三股力量打破了这个直觉。
第一,用量。一个成功的功能被使用的次数,远超你在脑子里建的模型。人对用量的估计可靠地偏低,一个在十次调用时微不足道的单 token 成本,在一千万次调用时就举足轻重。
第二,冗长。长提示词、庞大的检索上下文和冗长的回应,都会成倍放大 token 数量。同一个任务,根据围绕它的文本有多少,成本可能大不相同。
第三,重复。真实的 AI 功能很少每个任务只调用一次。它们会重试,会串联步骤,会调用模型去检查模型。一个用户动作可以扇出成许多次推理。你该推理的成本是按工作流计,而不是按调用计。
真实系统中隐藏的乘数
生产级的 AI 系统带有快速原型永远不会暴露的成本放大器:
- 上下文堆砌。 为了让答案相关,系统会在每个请求前面加上文档、历史和指令。那些上下文就是 token,每一次调用都要付费,即便其中大部分每次都一样。
- 对话历史。 在一场聊天里,每个新回合往往会重新发送之前的回合,好让模型「记住」。一场长对话随着增长,每条消息越来越贵,因为输入一直在变大。
- 智能体循环。 当一个模型做规划、调用工具、观察结果、再次尝试时,单个用户目标就能触发一长串推理。能力令人印象深刻;token 数量就是账单。
- 重试与护栏。 校验流程、安全检查,以及「让模型给自己的答案打分」这类模式,都会增加用户从不见到、而你总要付费的调用。
这些没有一个天生就是浪费——它们往往恰恰是让产品变好的东西。但每一个都是乘数,而乘数会叠加。
更大不总是更便宜,也不总是必要
有一股强烈的拉力,让人总想用最强的模型,因为它给出最好的答案。但更强的模型通常每 token 成本更高,而许多任务并不需要它们。真实工作负载中很大一部分——分类、抽取、路由、简单的草拟——都能由更小、更便宜的模型很好地处理。
经久耐用的原则是让模型匹配任务,而不是对所有东西都默认用最大的那个。把昂贵的模型留给真正需要它的工作,把其余的路由到更便宜的选项。这一条纪律往往比任何其他改动都更能撼动账单,因为它攻击的是你大宗流量上的单 token 费率。
那些不在模型账单上的成本
只盯着单 token 费用,会掩盖第二层成本。运行一个 AI 功能涉及的不止推理本身。有构建和调校它的工程时间,有评估质量以确保便宜的答案不同时也是错误答案的工作,有捕捉成本或行为漂移的监控,还有某些工作流为了安全或准确而需要的人工审查。这些都是真实且反复发生的,它们不会出现在推理发票上。
如果你自托管而非租用推理,形态变了,但总额并不会消失。你用单 token 账单换来了硬件、容量规划,以及让模型可靠服务的运营负担。闲置容量无论请求是否到来都要付费,而利用率不足的硬件可能比计量计费的 API 调用更贵。经久耐用的原则是:「成本」意味着总拥有成本,而不是最容易看见的那个条目。每 token 看起来最便宜的选项,一旦把周边工作算进来,可能是最贵的。
为什么成本和质量是同一场对话
人们很想把成本和质量分开来优化,但它们是纠缠在一起的。许多抬高成本的东西——更大的模型、更多的上下文、额外的校验流程、更长的推理——恰恰是团队为改进答案而加上去的。盲目砍掉它们,账单下降的同时,质量却在悄悄退化,而如果这赶走了用户,或产生了某人不得不去修复的错误结果,代价可能远超那点节省。
诚实的框架是:你是在以某个价格买一个质量水平,而目标是预算之内的最佳质量,而不是发票上最低的那个数字。这意味着两者要一起衡量:当你削减 token 或缩小模型时,盯着答案会发生什么,而不只是成本。一个省钱又守住质量的改动是胜利;一个省钱却侵蚀质量的改动,是一个伪装成节省的隐形损失。仅凭成本做出的决定,往往会在日后以质量问题的形式重新出现。
真正能撼动账单的杠杆
一旦你把推理看作 token 体量的经济学,控制手段就清晰了:
- 削减 token。 更短的提示词、更精简的上下文,以及有界的回应长度,能削减每次调用的成本。只发送模型需要的。
- 给模型选合适的尺寸。 把简单任务路由到小模型;把大模型留给难任务。分层路由是可用的最高杠杆动作之一。
- 避免冗余调用。 缓存重复结果,在供应商允许处复用稳定的上下文,并移除那些不值其成本的「模型检查模型」步骤。
- 给循环封顶。 给重试和智能体步骤设上限,这样单个请求就不会悄悄失控、膨胀成几十次推理。
- 按工作流衡量。 跟踪每个完成的用户任务的成本,而不是每次 API 调用。那才是真正随你业务扩张的数字。
总结
推理看起来便宜,是因为你一次只体验一次调用,但你不是按调用付费——你是按 token 付费,而 token 会随着用量、冗长和重复成倍增长。生产系统会堆上上下文、对话历史、智能体循环和安全检查,每一个都是叠在其他之上的安静乘数。解法不是惧怕 AI 成本,而是为它做设计:削减 token,让模型匹配任务,砍掉冗余调用,给循环封顶,并按完成的工作流而非按请求来衡量成本。「便宜的 AI」在单位层面是真的,在规模上却是昂贵的——而这两个真相之间的鸿沟,正是优秀工程让自己回本的地方。
