welclaiAI·TREND·DIGEST
政策

不带噱头地讲清 AI 中的偏见

AI 中的偏见既不是神话,也不是机器的道德缺陷。它是这些系统学习方式可预料的结果。这里是冷静的版本。

policy2026-04-19 16:11 KST·主编·7 分钟

围绕 AI 的话题里,很少有哪个比偏见制造出更多的火气、更少的清晰。一派把它当作技术无可救药的证据;另一派则把它挥手打发,说成是裹着工程外衣的政治。两者都没看清实际发生的事。AI 中的偏见不是谜团,也不是机器的道德缺陷——它是系统从数据中学习这一方式可预料的后果,并且能像任何其他工程问题一样被测量、被降低、被管理。这里是冷静的版本,写给那些想理解这个现象、而非就此争吵的人。

这里的"偏见"究竟指什么

在日常用语里,"偏见"意味着不公平或成见。在技术世界里,它有一层更狭义的含义:系统的预测与真相之间存在系统性的差异,或者它对待不同群体的方式存在系统性的差异。这两层含义彼此交叠,这正是讨论常常纠缠不清的原因。

一个模型可以在统计意义上有偏——始终朝一个方向偏离——而没有任何人意图造成伤害。一个模型也可以产出对某个群体不公平的结果,即便每一个单独的步骤看起来都合情合理。把这些含义分清,是清晰思考的第一步。当有人说"这个 AI 有偏见"时,有用的追问是:怎么个偏法,针对谁,用什么来衡量。

偏见从何而来

偏见不是某个反派注入的。它通过寻常的机制进入,大多发生在模型本身的上游。

  • 数据反映了世界。 模型从人类活动的记录中学习,而那些活动里早已包含历史性的失衡。一个基于过往决策训练出来的系统,往往会复现那些决策中的模式,包括不公平的那些。
  • 数据是不完整的。 如果某些群体在训练数据中出现得少得多,模型可供学习的就更少,对他们的表现也更差。这正是为什么系统有时对多数情形表现得漂亮,却在边缘情形上很糟。
  • 标注带着判断。 大量训练数据是由人标注的,而那些标注编码了人类关于什么算正确、相关或恰当的选择。
  • 目标是狭窄的。 模型恰好优化你叫它优化的东西。如果那个目标忽略了群体间的公平,那么模型也会高效地忽略它。

这些都不需要恶意。它们是从真实世界数据中学习、却不加刻意校正时的默认结果。

中立机器的神话

一种常见的直觉是,去掉人的判断就能让系统变得客观。事实往往恰恰相反。模型是它所学数据的一种压缩;如果那份数据是偏斜的,模型就是对这份偏斜忠实而自动化的复现——如今还规模化地施加出去,并披着中立的外衣。

这一点值得停下来细想。一个有偏模型的危险,不只在于偏见本身,还在于它从"看上去很技术"中借来的那份权威。一张列着不公平结果的电子表格会招来审视。同样的结果由算法产出时,却可能让人感觉像是数学,而数学给人一种无可辩驳之感。把模型输出当成自动客观,正是那个把寻常偏见变成根深蒂固偏见的错误。

偏见是可测量的

令人鼓舞的消息是,偏见不是一种氛围——它可以被量化。研究者和从业者通过比较不同群体之间的错误率、准确率和结果,来检查系统的表现是否因群体而异。公平有好几种正式定义,而且有一个着实重要的玄机:它们可能彼此冲突。让系统在某项度量上相等,可能会让它在另一项度量上失衡,而你有时无法同时满足所有定义。

这种权衡不是漏洞,它是这个主题诚实的内核。为某个特定用途选择哪种公平度量要紧,是一个关于价值的判断,由数学提供参考,却不由数学决定。假装存在一个放之四海皆准的定义,正是讨论走偏的方式。

不夸海口地降低偏见

你没法像改一个错别字那样删掉偏见,但你能切实地管理它:

  • 改进数据。 更广泛、更具代表性、标注更好的数据,从源头着手解决问题,而源头正是修复最持久的地方。
  • 跨群体测试。 为不同人群分别测量表现,能把模糊的担忧变成具体、可修复的发现。
  • 在高风险回路里保留人。 对于实质影响到人的决策,模型的输出应当是人类判断的一项输入,而非最终定论。
  • 记录并监控。 系统会随世界变化而漂移;上线时尚小的偏见可能日后增长。持续的测量与最初的检查同等重要。

现实的目标不是一个完全无偏的系统——那并不存在——而是一个其偏见为人所知、有界并受到关注的系统。

为什么情境决定它有多要紧

同样大小的偏见,可以无足轻重,也可以事关重大,全看系统做的是什么。一个推荐歌曲的工具里有点小偏斜,只是个小小的烦扰。同样的偏斜出现在触及就业、信贷、住房或健康的系统里,则是另一个量级的问题,因为代价落在真实的人身上,而他们往往看不到、也无法申诉那个决定。

这正是为什么对 AI 偏见审慎的讨论,会聚焦于高风险、后果重大的用途,而非对所有应用一视同仁。审视的力度应当随一个错误、不公平的输出所能造成的伤害而相应放大。凡这些系统为带有法律或财务后果的决策提供依据之处,那份审视就不是可选项。本文提供一般性信息,而非法律建议。

总结

AI 中的偏见既不是噱头,也不是无解的诅咒。它是从一个本身就不均衡的世界里学习的预期结果,并被我们把自动化误当成客观的倾向所放大。一旦你这样去看它,它就变得可处理了:界定清你说的是哪种偏见,跨群体测量它,接受公平定义可能彼此冲突,在数据和流程的层面修复你能修复的,并把最重的审视留给那些最影响人们生活的决策。机器没有成见,也并不中立。它们是镜子——而面对一面镜子,有用的回应是诚实地看清它所映照的东西。

#bias#fairness#ethics#data

原始来源

NIST