AI 智能体在工作中：真实任务与演示秀场

智能体的演示令人目眩，部署却让人清醒。本文讲清在工作中真正奏效的是什么、什么会崩塌，以及如何分辨二者。

use-cases2026-04-13 17:23 KST·主编·7 分钟

AI 智能体——一个能够规划、调用工具，并为达成目标采取一连串行动的模型——是应用 AI 中最令人兴奋、也最被过度吹捧的概念。演示堪称精彩：给它一条含糊的指令，看着它浏览网页、点击、写代码、汇报结果。而部署则要朴素得多。在演示和日常工作流之间的某个地方，智能体撞上了可靠性，而可靠性对它们并不友善。本文要把智能体真正擅长的现实任务，与那些经不起真实工作考验的演示秀场区分开来。

"智能体"到底是什么意思

剥去营销话术，智能体就是一个循环。模型接收一个目标，决定一个行动，通过某个工具执行它，观察结果，再决定下一步做什么——如此往复，直到它判定目标已完成。这个循环确实强大，因为它让模型能够处理单次回应无法解决的任务。它也是每一个可靠性问题的根源，因为错误会累积。一个在单个步骤上有九成五正确率的模型，在十步链条上的整体正确率要低得多，因为每一步都可能让下一步脱轨。同一个结构里，循环既是魔法，也是诅咒。

演示秀场：那些破绽

智能体演示被精心设计来掩盖循环的脆弱，而它们有一些可识别的破绽。任务被刻意挑选，使得理想路径成为唯一的路径。环境干净而可预测——没有过时数据、没有含义不清的按钮、没有意外。演示会一遍遍跑到成功为止，而你看到的是成功的那一条。最关键的是，成功的评判标准是它"看起来"完成了，而非结果是否正确且完整。真实工作没有这些保护：路径会分叉，环境凌乱不堪，你只有一次机会，而下游有人指望着这个答案是对的。当你观看一个智能体演示时，诚实的问题不是"它成功了吗"，而是"在他们没给你看的那次运行里，会发生什么"。

智能体真正能创造价值的地方

当任务具备某种特定形态时，智能体能干真活。它边界清晰，有明确的完成定义。步骤大多是机械性的，而非高度依赖判断。环境稳定，工具可靠。而最重要的是——错误易于发现且易于撤销。对涌入的条目进行分类和打标签，从几个已知来源收集信息汇成结构化摘要，运行一套固定的多步检查，依模板起草例行文档：这些都发挥了循环的长处，同时在某一步出错时限制了波及范围。它们共同的特征是，人可以迅速验证输出，而出错的代价很低。

它们在哪里崩塌

智能体恰恰在演示看起来最惊艳的地方挣扎：步骤繁多、目标含糊、行动不可逆的漫长开放式任务。链条越长，累积误差就越占主导，早期一个错误的转向就能让整次运行自信地驶向错误方向。开放式目标给了模型太多空间去游荡，或过早宣布胜利。而不可逆的行动——发出那条消息、转走那笔钱、删掉那些记录、公开发帖——会把模型的一个失误，变成你无法收回的现实后果。一个在沙盒里令人惊艳的智能体，在其工具触及生产系统的那一刻，可能真的变得危险。

护栏就是产品本身

对智能体而言，安全设计不是附加项；它就是工程工作的主体。让智能体可部署的那些模式是一致的，而像 Anthropic 文档这样的厂商文档详细描述了工具使用与控制的机制。给智能体配备任务所需的最窄工具集，而非它可能用得上的一切。让有重大后果的行动需要人工确认，而不是让循环自主触发它们。优先选择可逆的行动，并记录每一个行动以留下审计轨迹。给步骤数设上限，让一个犯糊涂的智能体快速失败，而非越陷越深。这正是像 NIST AI 风险管理框架这样的框架所倡导的、按后果分级的控制：一个行动越可能造成伤害，就越应让人留在循环之中。

验证不容妥协

智能体项目悄无声息的失败，在于缺少一道对"智能体是否真的成功了"的核查。因为循环在模型"判定"自己完成时就结束了，所以"完成"和"正确"并不是同一件事，一个智能体会兴高采烈地汇报它搞砸了的任务已经完成。每一个能长久存续的部署，对"我们怎么知道它成功了"都有一个不依赖智能体自我表态的答案——一道独立的核查、一次对输出的人工复审、一项能抓出坏结果的下游测试。信任智能体的自我评估，正是无声错误不断累积、直到几周后才有人察觉损害的方式。

从小处着手，让信任被赢得

那些用智能体取得成功的团队，并不是从自动化他们风险最高的工作流开始的。他们挑选一项狭窄、低风险、易于验证的任务，在每一份输出都有人复审的情况下运行智能体，并衡量它实际正确的频率。只有当过往记录值得托付时，他们才放松缰绳——更少的确认、更宽的范围、更少的复审。信任是逐任务、凭证据赢得的，而不是因为演示令人惊艳就预先给予的。一个稳妥地处理了某项小活儿数周的智能体是一块基石；一个你"指望"它能处理大活儿的智能体则是一项负债。

上下文成就或毁掉这个循环

在大多数并非安全问题的智能体失败背后，藏着一个技术现实：智能体只知道它面前的东西。在每一步，模型都基于它当前可获得的信息——目标、它已做过之事的历史、以及工具返回的任何内容——来决定它的下一个行动。如果这幅图景不完整、过时，或被噪声淹没，决策就会退化，而由于循环串联着决策，一个退化的步骤会毒害其余所有步骤。这就是为什么在整洁沙盒里管用的智能体，在真实环境中会跌倒：真实环境用无关细节、含义不清的结果和片面信息淹没了循环，而模型的判断，至多只能和它所依据的那幅图景一样好。

实际的后果是，设计一个智能体，很大程度上就是在打理它所看到的东西。给它某一步真正需要的信息，扣留会分散它注意力的噪声。让工具结果清晰明确，而不是倾倒出它还得自行解读的原始输出。让运行中的历史保持聚焦，使模型不必在它自己早先困惑堆成的沼泽上推理。初接触智能体的团队往往以为，更强的模型就是不可靠性的解药；有经验的团队则知道，更好的上下文工程通常比更好的模型更能见效。循环的聪明程度，只取决于你在每一轮喂给它的信息。

总结

智能体是真实的、有用的，也常被过度吹捧。它们在边界清晰、机械、可逆、易于验证的任务上创造价值，而在漫长、含糊、不可逆的任务上崩塌——而那恰恰是演示大放光彩之处。让它们可部署的工作，不是那个属于简单部分的循环，而是护栏、验证，以及从小处着手的纪律。看完演示，再问问在他们没给你看的那次运行里会发生什么。为那次运行而构建，智能体就会成为真正有用的同事，而不是昂贵的秀场。

#agents#automation#tools#reliability

原始来源

NIST AI Risk Management Framework Anthropic Documentation