用 AI 做内容审核：艰难的取舍

AI 审核能扩展到人力永远无法企及的体量——但你每拧动一个旋钮，都是用一种伤害换另一种。本文讲清那些你无法逃避的取舍。

use-cases2026-05-24 15:19 KST·主编·7 分钟

内容审核是少数几个"什么都不做"并非选项、"做到完美"又不可能的问题之一。任何开放平台上的内容体量都远超人力所能审阅，这使得 AI 审核不是奢侈品，而是必需品。然而审核从根本上是一个在模糊中作判断的问题，而 AI 正被要求在每个错误都会被成倍放大的规模上作出这些判断。本文要谈的，正是随之而来的取舍——那些你无法用工程手段消除、只能从中选择的取舍。

体量让 AI 不可避免

先从驱动一切的约束说起：规模。一个每天收到数百万条帖子的平台，无法靠人力审阅它们全部。审阅人手不够，成本高得离谱，而所需的速度——有害内容必须被迅速撤下——超出了人力的吞吐量。AI 审核之所以存在，是因为另一个选项是"不审核"，而不审核本身就是一场灾难。

这一点值得明说，因为它重构了整场辩论。问题很少是"AI 审核还是人工审核"，而是"由人工兜底的 AI 审核，还是无人审阅的内容"。一旦你接受不管你喜不喜欢，AI 都在做第一轮筛查，真正的工作才开始：决定它如何出错，因为它必然会出错。

你无法逃避的查准率—查全率取舍

每一个审核系统都面对一个无法回避的旋钮。把它拧向抓住更多有害内容，你也会抓住更多无辜内容——这就是假阳性，合法的帖子被移除。把它拧向保护合法内容，更多有害内容就会溜过去——这就是假阴性。两者你无法同时最大化。改进模型能让整个取舍朝有利方向移动，却永远消除不了这个选择。总得有人来决定，平台更愿意犯哪一种错。

这个决定不是技术性的；它是一个披着技术外衣的价值问题。一个面向儿童的平台应当接受许多假阳性，以避免放过伤害。一个面向政治言论的平台应当接受一些有害内容溜过，以避免压制合法的声音。不存在中立的设定。拒绝选择，只意味着这个选择被隐性地、糟糕地、由设定默认值的那个人替你做了。

上下文是 AI 最吃力的地方

最难的审核裁决取决于上下文，而上下文恰恰是 AI 处理得最差的。同样的字句，可以是一次攻击，也可以是对一次正被谴责的攻击的引述。一张图像，可以是被美化的暴力，也可以是作为新闻被记录的暴力。讽刺，对一个听不懂笑点的系统而言读起来像是真心话。在某个社群内部被重新挪用的侮辱性词语，对一个被训练去标记它们的模型而言，读起来就是侮辱。

这些不是罕见的边缘情况；它们占了真正有争议内容的很大一部分。AI 在大规模处理明确情形——清晰的垃圾信息、显而易见的辱骂——上，远胜于人力。但它恰恰在风险最高之处系统性地吃力，因为那些情形要求理解意图、历史和社群规范，而这些是任何通用模型都无法完全掌握的。一个假装并非如此的审核系统，会对那些最要紧的内容，作出自信而后果严重的错误判断。

规模上的错误是成批的错误

一个人工审核员作出一个错误裁决，影响的是一条内容。一条错误的 AI 审核规则，会一致地出错，触及每一个实例，瞬间发生。这是自动化的双刃：它以同等的效率扩展好的判断与坏的判断。系统中一个微妙的偏见，不是一个不公的决定；而是同一个不公的决定被重复了上百万次，最沉重地落在那个盲点所影响的群体身上。

这就是为什么监督不能是事后的补救。审核错误的后果——被压制的声音、被留下的伤害、整个社群因一个有缺陷的模式而遭受不公——要求像 NIST AI 风险管理框架所描述的那种成比例的风险管理：影响越大，审视越重。审计系统性偏见不是可有可无的润色。它是一个工具与一项以平台自身的速度和规模运转的负债之间的区别。

人无法被移除，只能被重新安置

完全自动化审核的梦想，撑不过与争议情形的正面遭遇。人留在系统中，但他们的角色变了。他们不再审阅一切，而是处理 AI 标记为不确定的内容、来自被错误处置者的申诉，以及模型从未见过的新情况。AI 做高体量、高置信度的工作；人做那些判断无可替代的、模糊而高风险的工作。

把这道分工弄对，是核心的设计问题。把 AI 设定为对太多内容独自行动，你就扩展了它的盲点。把太多内容转给人工，你就失去了当初让 AI 成为必需的那份规模。运转良好的系统，对这道边界都是审慎的：对 AI 独自裁决什么、对什么进行升级，都有清晰的阈值，并且有一条真实可用的申诉路径——因为被自动决策错误抓住的人，理应有一个能推翻它的人。

取舍不会消失

要是能用一套配置来解决这件事就好了。然而并没有。更好的模型会移动取舍，却永远无法消解它们。查准率—查全率的选择仍是一个价值决定。上下文仍然很难。规模持续放大每一个错误。申诉将永远是必要的，因为系统总会有出错的时候。审核不是一个你去解决的问题；它是一种你要持续管理的张力，没有最终答案。

把它处理得好的平台，靠的不是更好的算法，而是更清晰的立场。它们明确地决定自己更愿意犯哪些错，它们把人类判断留给需要它的情形，它们审计自动化所滋生的成批错误，它们给被冤枉的用户一条真实的发声渠道。它们把审核当作那种永久的、有争议的、充满判断的工作来对待——而不是一项可以完成后就遗忘的任务。

总结

AI 审核在规模上不可避免，又不可能臻于完美。体量迫使自动化；自动化迫使你无法逃避的取舍——抓住更多伤害，或保护更多言论，但永远无法两者皆充分。AI 把明确情形处理得很好，却恰恰在上下文与风险最高之处吃力，而它的错误成批到来。答案不是一个魔法设定，而是一种诚实的姿态：审慎地选择你的错误，把人留在判断要紧之处，审计系统性偏见，并给人们一条真实的申诉。把这份张力管理好，AI 审核就管用。假装这份张力可解，它就会在规模上让你大吃一惊。

#moderation#trust-and-safety#operations#policy

原始来源

NIST AI Risk Management Framework