安全与能力：核心张力

让一个 AI 系统更有能力，和让它更安全，常常朝不同方向拉扯。本文用大白话审视这股塑造了整个领域的张力。

policy2026-04-07 13:58 KST·主编·7 分钟

关于 AI 该如何构建的大多数争论之下，都坐着同一股张力：让一个系统更有能力，和让它更安全，常常朝不同方向拉扯。并非总是如此，也并非绝对——但其程度足以让这个领域里几乎每一个真实决策，都成为两者之间的一场谈判。本文用大白话带你走一遍这股张力，写给那些想理解这些争论、又不愿被任何一方口号裹挟的人。

这里说的“能力”和“安全”究竟指什么

把这两个词讲清楚会有帮助。能力是一个系统能做什么：它适用面有多广、有多强大、在无人手把手的情况下能完成多少。安全是它有多可靠地去做我们真正想要的、并避开我们不想要的：拒绝有害请求、待在预期的界限内、优雅地失败、在压力下行为可预测。

这样一说，两者听上去是互补的，有时也确实如此——一个不可靠的系统，在任何有用的意义上其实都算不上很有能力。但在实践中，那些日常里增进其中一方的选择，往往以另一方的某些代价为代价，而假装并非如此，正是团队说服自己做出糟糕决策的方式。

为什么两者会彼此拉开

这股张力之所以出现，是因为各自一侧的收益是如何被造出来的。

通用性是把双刃剑。 一个更有能力的系统能做更多有用的事，也能做更多有害的事，因为那让它帮你解决难题的同一种灵活性，也让它能帮上危险的忙。
护栏要以通用性为代价。 许多安全措施靠的是限制行为——拒绝某些类别的请求、收窄系统会去尝试的范围。每一道限制都拿掉了一些有害用途，而且几乎总会顺带拿掉一些正当用途。
速度与谨慎相争。 能力的提升奖励快跑和出货；安全的工作奖励慢下来去测试、探查和验证。两者在进度表上朝相反的方向拉扯。

这些都没有把安全和能力变成真正的对立面。它们让两者成为一个你必须主动去管理的取舍，而不是一个会自行解决的问题。

两个极端给的虚假安慰

有两个诱人的立场能让你彻底回避这股张力，而它们都是错的。

第一种说安全是个干扰项——唯一真正的目标是能力，谨慎是留给那些不想要进步的人的。这忽视了一个不安全的强大系统是负债、而非资产，也忽视了信任本身就是被采纳的前提。

第二种说能力天生危险——负责任的做法永远是限制、放缓或保留。这忽视了有能力的系统带来巨大的善果，忽视了过度限制有实打实的代价，也忽视了“什么都不做”本身就是一个有后果的选择。

诚实的立场处在那个不舒服的中间地带：两个目标都是真的，它们在边际上确实存在取舍，而该做的工作是为每一个具体情形找到平衡，而不是宣布某一方胜出。

为什么是情境决定了平衡

并不存在一个唯一正确的安全与能力之比，因为正确的平衡取决于利害大小和可逆性。

一个低风险、易于撤回的应用——它的错误代价低廉、又能迅速被纠正——可以合理地偏向能力并快速迭代。一个高风险、难以撤回的应用——它的错误会造成无法收回的真实伤害——则应当偏向安全，哪怕要付出能力上的代价。同一项技术在不同情境里值得不同的设定，这正是为什么一刀切的规则（“永远快速出货”或“永远限制”）会失灵。

这也是为什么“这个系统安全吗？”这个问题并不完整。有用的问题是“它对这个用途而言够安全吗？”安全是相对于后果而言的，而不是一个系统要么有、要么没有的绝对属性。

团队管理这股张力的实用做法

张力无法被消除，但可以被刻意地处理：

让谨慎与利害相匹配。 用一个用途的失败有多糟、有多难撤回，来校准它值得投入多少安全工作。
偏好可逆的发布。 分阶段发布、有限受众，以及回滚的能力，让你在获得能力的同时，把失败保持在可恢复的状态。
刻意去测试失败。 主动探查一个系统可能被滥用或崩坏的方式，而不只是确认它在按预期使用时能正常工作。
在要紧之处留住人。 对高风险的决策，把系统设计成让一个负责任的人能够审查、推翻并担责。
随时间重新审视平衡。 当一个系统变得更有能力、或被更广泛地使用时，正确的安全设定也随之改变；昨天的平衡未必自动就是今天的。

这些做法并不在安全与能力之间挑出赢家。它们把取舍摆到明处，好让它被有意识地决定。

为什么这股张力定义了整个领域

几乎每一场关于 AI 的公开争论——该多快推进、该限制多少、该由谁决定、该披露什么——都是这同一个取舍的某种版本。那些看似处处分歧的人，往往只是对安全和能力的权重不同，或是在就不同的利害大小作推理。看清分歧之下共有的结构，会让这些争论容易跟随得多，也让你更容易看出何时有人在假装这个取舍并不存在。

总结

安全和能力不是敌人，但也不是无代价的伙伴。在边际上，增进其中一方常常要以另一方为代价，而这个领域的核心工作，是去管理那个取舍，而不是一厢情愿地把它许愿掉。两个极端立场——把安全当干扰项，或把能力当作天生危险——既都令人安心，又都是错的。诚实的姿态承认两个目标都是真的，承认正确的平衡取决于利害大小和可逆性，并承认“对这个用途够安全吗”是比“安全还是不安全”更好的问题。守住这个框架，围绕 AI 的喧嚣争论就忽然变得可读了。

#safety#capability#governance#trade-offs

原始来源

National Institute of Standards and Technology