welclaiAI·TREND·DIGEST
应用案例

把 LLM 用于客户支持:最先崩的是什么

支持聊天机器人是最容易做出来的 AI 演示,却是最难真正运转好的系统之一。本文讲清真实部署在哪里崩溃——以及能存活下来的系统靠的是什么。

use-cases2026-04-02 12:31 KST·主编·7 分钟

客户支持是企业最热门的 AI 首选用例,这不无道理:演示太诱人了。你把模型接上帮助文档,问它一个问题,它就流畅地答了出来。但从那个演示到一套你真能跑起来的系统之间,隔着一道大多数项目都迈不过去的鸿沟。本文按团队通常遇到问题的先后顺序,梳理最先崩的是什么,好让你提前为这些故障做准备,而不是在生产环境里才发现它们。

演示很容易;运营很难

演示之所以成立,是因为它展示的是最轻松的路径:一个清晰的问题,对应一个干净的、就写在文档里的答案。真实的支持流量不是这样的。它充满含糊的问题、缺失的信息、边缘案例、愤怒的客户,以及那些需要执行一个动作、而非给出一个答案的请求。在演示里大放异彩的模型,第一天上线就会撞上所有这些。为演示做规划,等于在为那从来不是问题的百分之五流量做规划。

崩点 #1:它在该不知道的时候照样回答

最先崩的是"自信"。支持模型会去回答那些答案根本不在你文档里的问题,凭空编造出听起来合理的政策、价格或步骤。客户分不清哪个是有依据的答案、哪个是捏造的——两者听上去同样流畅。一个关于退款政策、自信而错误的答案,造成的损失就可能超过整套系统省下的全部成本。

解法是接地与诚实:从你真实的文档中检索,要求模型只依据检索到的内容作答,并在不知道时明确说出来、转交人工。难的不是这条指令——而是接受"我不知道,让我帮您转接同事"是一个结果,而非一次失败。

崩点 #2:检索漏掉了相关文档

一旦你把答案接地到文档上,下一个故障点就往上游移动了:模型依据了错误的文档、或根本没有文档来作答,因为检索漏掉了那篇相关的。这是每个检索系统都要学到的同一课——大多数故障都是检索故障。如果正确的帮助文章没有摆在模型面前,再流畅的生成也产生不了正确的答案。

这正是那些不起眼的工作开始回报的地方:保持知识库干净、及时更新,把文章合理地分块,并衡量针对真实问题是否真的检索到了正确的文章——这要和"最终答案读起来是否通顺"分开来衡量。

崩点 #3:知识库本身就是错的或过时的

支持模型的好坏,取决于它背后的文档。多数公司在接入模型时才发现,自家帮助中心自相矛盾、描述的功能早已变更、或者客户问得最多的那件事压根没写。AI 并没有制造这个问题;它只是把问题大规模地、当着客户的面暴露出来。成功的团队会把文档清理当作项目的一部分,而不是某个别人会去搞定的前置条件。

崩点 #4:它无法安全地执行动作

回答问题是一回事;去某件事——发起退款、修改地址、取消订单——是另一回事。支持助手一旦能执行动作,赌注就变了。答错令人尴尬;做错动作则会动到钱或数据。真实部署会划出一条审慎的界线:低风险动作模型可以直接执行,较高风险的需要确认或人工介入,所有动作都要有清晰的审计记录。这种因情境而异的风险管理,正是 NIST AI Risk Management Framework 这类框架所提倡的——让控制措施匹配其后果。

崩点 #5:转交人工很笨拙

没有哪个支持 AI 能处理所有情况,所以转交人工是产品的一部分,而不是事后补丁。它崩在哪里:模型转交时不传递上下文,于是客户得重复一遍、火气更大;或者它拒绝转交,把客户困在一个死循环里。好的转交是无缝的——它带着对话、客户意图以及已经尝试过的方案,让人工一接手就掌握情况。

崩点 #6:没有人在衡量正确的东西

最后一个故障是悄无声息的。团队衡量"分流率"(AI 处理了多少工单)并为此庆祝,却不衡量那些答案是否正确、客户是否反而更愤怒地回来了。没有质量的分流,只是在掩盖问题。能长久运转的部署会衡量解决质量和客户结果,定期阅读真实的对话记录,并把最糟糕的那些答案当作信号——而不是看平均值。

存活者的共同之处

那些能跑通的部署有一个共同模式:它们把模型当作系统中的一个组件,而非系统本身。它们让答案接地、刻意设计好"我不知道"这条路径、保持知识库诚实、为高风险动作设置闸门、让转交优雅顺滑,并衡量质量而不只是数量。这些都不稀奇。它们正是"交付演示"与"运营系统"之间的区别。

总结

支持聊天机器人是最容易做出来的 AI 演示,却是最难真正运转好的系统之一。它会依次崩在:过度自信、检索、过时文档、不安全的动作、笨拙的转交,以及错误的指标上。这每一项都是可以预见的。提前为它们做规划,AI 支持层就会成为一项真正的资产。跳过规划、直接交付演示,那些故障就会由你的客户替你找出来。

#customer-support#deployment#rag#operations