大规模地分类与路由文本
按类别对文本进行分拣和路由,是 AI 最可靠的工作之一。本文讲清是什么让它在规模上奏效,以及在边缘处潜伏的那些失败。
很多业务工作,往深里看,都是把文本分拣进一个个桶里。这张工单该派给哪个部门?这条消息是垃圾信息还是真的?这份文档是关于什么的?这个请求该归入哪条队列?靠手工做既慢、又乏味、还不一致,这就让它成了语言模型最自然、最可靠的工作之一。分类也是少数几个失败模式被充分理解、且大体可控的 AI 任务——只要你尊重它们。本文讲清是什么让文本分类和路由在规模上奏效,以及它具体会在哪些地方出问题。
为什么分类是较稳妥的选择之一
与开放式生成相比,分类是一个受约束的问题。模型不是在发明文本;它是在一组固定的选项中做选择。这种约束是一份礼物。输出是可核对的、错误是可计数的,而且在把系统托付给真实流量之前,你可以在一个带标注的集合上度量准确率。你没法轻易度量一份生成的摘要是不是"好",但你可以精确度量一个分类器把工单送到正确队列的频率有多高。正是这种可度量性,让分类成了少数几个你能带着真正信心去部署的 AI 任务之一。
它还以一种生成所不具备的方式优雅地降级。一张错路由的工单是一个可挽回的小烦恼;它落进了错误的队列,有人注意到,它便挪走了。与一个客户会据以行动的捏造答案相比,一次分类错误的爆炸半径通常很小——而这恰恰是为什么它是一个适合让自动化在较轻监督下运行的地方。
你的类别才是真正的设计难题
分类最难的部分,通常不是模型——而是类别。大多数现实世界的分类体系都比看起来更乱。类别相互重叠,于是一条消息合理地同时属于两个。类别含糊,于是连人也会对某样东西该归哪儿意见不一。一个包揽一切的桶,悄无声息地吞掉了三分之一的流量。而这套体系是为公司如何组织而设计的,并非为文本本身可见的区分而设计。
模型无法可靠地分类到连人都无法一致套用的类别里去。如果你让三个有经验的人去分拣同样的一百个条目,而他们对其中二十个意见不一,那模型也会在大约这么多条目上"意见不一",而再多的调优也修不好一个在根本上就含糊的分类体系。一个分类项目中最有价值的工作,往往是把类别清理干净:合并重叠的、拆分包揽一切的,并写出精确到人和模型都能以同样方式套用的定义。
置信度问题
一个分类器不仅需要挑出一个类别;它还需要知道自己何时没把握。危险的情形,是那个不干净地契合任何类别的条目——模型用它在显而易见的情形上所展现的同样的外在自信,挑出了最接近的那个选项。没有一套不确定性的概念,每一个决策看起来都同样值得信任,包括那些抛硬币式的。
稳健的设计会加上一条"没把握"的通路。当模型的置信度偏低、或条目不清晰地属于任何地方时,它会路由给一个人或一条复核队列,而不是去猜。这单单一个设计选择,就改变了系统的性格:它不再是在困难情形上自信地犯错,而是在占多数的简单情形上自动正确,并诚实地把其余的升级上去。让监督的程度匹配每个决策的难度和利害,恰恰是 NIST AI 风险管理框架这类框架所鼓励的那种"后果感知"的姿态——把例行的自动化,把不确定的升级上去。
分布在你脚下移动
一个分类器是针对它今天所见的那类文本来训练或配置的。可世界不会静止不动。新产品上线,产生了从前不存在的消息类别。一场营销活动改变了人们措辞请求的方式。一个新问题制造了一批在现有体系里无处契合的条目的激增。模型却继续自信地分类,把这股新颖流量硬塞进旧桶里,准确率于是悄然侵蚀,而每一个单独的决策看起来仍然没问题。
这就是那个会逮住那些把分类当成"设好就不管"的团队的失败。一个上线时准确率达九成五的系统,可以在几个月里漂移到远低于此,却没有一声警报,因为没有任何东西坏掉——它只是悄悄地越来越错。防御之道是持续的度量:对真实决策抽样、对照基本事实核对它们,并把低置信度和包揽桶情形的比率当成一个早期预警,提示分布已经移动了。
规模改变了错误的经济学
在小流量下,一个人可以复核每一次分类,模型只是一个建议。在规模上——成千上万乃至数以百万计的条目——复核每一个决策都是不可能的,而系统的意义,正是让大部分流量不经人手。这种转变抬高了把设计做对的利害,因为错误如今是在无人监督下发生、并累积起来的。
务实的答案,是由置信度和后果驱动的分级处理。高置信度、低利害的决策完全自动运行。低置信度或高利害的决策交由人工复核。而对自动决策的一份持续抽样会被审计,好让漂移和系统性错误在它们复合之前浮现出来。如此一来,人力就用在能改变结果的地方,而不是无用地稀薄摊在一片显而易见的情形的洪流之上。
那些奏效的系统有何共通之处
规模上可靠的分类,在差异极大的领域里往往看起来是一样的。类别干净、可一致套用,并定义得精确到人能够达成一致。系统有一条明确的"没把握"通路,而不是把每个条目硬塞进一个桶。准确率对照基本事实持续度量,而非从上线起就假定。处理按置信度和利害分级,好让自动化在安全处运行、人工在要紧处复核。还有人盯着那种悄无声息侵蚀准确率的分布移动。这些都不是关于一个更聪明的模型;它们关乎尊重一个分类器始终拥有的那些失败模式。
总结
文本分类和路由是 AI 最可依赖的工作之一,因为问题是受约束的、输出是可核对的、准确率是可度量的,而错误优雅地降级。它的失败被充分理解:没人能一致套用的含糊类别、对无处契合的条目的过度自信、世界在一套静态体系之下变化时的悄然漂移,以及规模抽走人这道安全网的方式。把类别清理干净,给模型一条说"没把握"的通路,持续度量准确率,按置信度和利害把处理分级,并警惕漂移。做到这些,分类就是那种你能信任它大体自行运行的、罕见的 AI 部署。把它当成"设好就不管",它就会继续自信地往一些不再契合的桶里分拣。
