负责任地发布一个 AI 功能:一份清单
一份面向 AI 功能的实用上线前清单——涵盖准确性、安全、隐私、透明度,以及那些保护用户的人为防线。
造一个演示惊艳、上线糟糕的 AI 功能很容易。模型在受控环境里产出令人印象深刻的输出,所有人都很兴奋,而那些棘手的问题——它出错时会怎样、谁看得到数据、用户是否知道自己在和一个模型对话——都被推迟到上线之后,而那往往意味着永远。负责任地发布,意味着在发布之前处理好这些问题,而不是把它们当作事后补丁。这是一份做到这一点的实用清单:在一个 AI 功能触及真实用户之前,要确认的那些事。
对准确性和失败保持诚实
从那个令人不适的真相开始:你的功能有时会出错。模型会产出自信、貌似合理、却根本不正确的答案,而再多的提示也无法将其彻底消除。负责任的发布始于度量它出错的频率和严重程度——用一个由各类输入构成的真实评估集,而不是几个精心挑选的演示。在你能判断错误率对这个用途是否可接受之前,你需要一幅它的现实图景。
然后让设计与利害相匹配。一个随意写作助手里的错误答案是个小麻烦;一个触及健康、金融、法律或安全的东西里的错误答案,则可能造成真实的伤害。对高风险的用途,门槛要高得多,而正确答案往往是留一个人在回路里,而不是让模型在无人监督下行动。明确地决定一次失败在你的情境里要付出什么代价,并把防护措施设计得与之相称。不要发布一个你还没诚实地考虑过其最坏情形失败的功能。
为用户建立预期
用户的行为会因他们对一个工具的看法而大不相同。如果他们以为某个答案是权威的,就会不加核对地照着做。如果他们明白这来自一个可能出错的 AI,就会运用自己的判断。所以请告诉他们。披露他们正在与一个 AI 功能互动,而不要让他们假定输出出自一个人或一个绝无差错的系统。
也要在界面里校准“自信”。避免把不确定的输出用既成事实的视觉权威感呈现出来。在答案可能出错、且利害值得时,鼓励核实——指向来源、建议复核,或把输出框定为一份草稿或建议、而非一纸定论。目标是让用户对这个功能的信任恰到好处:足以觉得它有用,又不至于停止思考。诚实的框定不是埋在小字里的免责声明;它是产品设计的一部分。
保护数据与隐私
每一个 AI 功能都在处理数据,而那些数据值得用心对待。在上线之前,要确切知道哪些信息流入了模型、又去了哪里。对个人、敏感或机密数据尤其要小心——不要把超过任务真正所需的数据发给模型,并弄懂你的提供方的数据处理条款,好让你能就用户的输入会遭遇什么对他们说实话。
确认几件具体的事。你是否在记录模型交互的日志,如果是,这些日志里是否含有需要保护或脱敏的敏感数据?你是否用平实的语言告诉过用户你收集什么、为什么?是否有用户一旦得知被发往了第三方服务、就会惊慌的内容?AI 功能里的隐私失误往往是意外的——一条捕获了超出预期内容的调试日志,一个把谁都没打算发送的数据一并卷入的输入框。在上线之前审计实际的数据流,而不是假定它与你的意图相符。
构建防护栏,抵御滥用与有害输出
一个向公众开放的功能,会被以你没设计过的方式使用,包括对抗性的方式。人们会试图让它产出有害内容、泄露它的指令,或表现出超出预期范围的行为。为此做好准备。把功能约束在它的目的之内、而不是任由它无边无际,并考虑对进入和出来的内容都设检查——过滤或拒绝明显越界的输入,并筛查那些绝不该触及用户的输出内容。
当模型输出馈入的是动作、而不仅仅是展示时,要尤其小心。如果模型的响应会触发代码、查询或外部操作,就把那份输出当作不可信的:校验它、约束它能做什么,并且绝不让它在没有检查的情况下执行特权操作。同样的谨慎也适用于你喂给模型的文档或网页内容,它们可能携带着旨在劫持模型行为的指令。决定你的边界在哪里,并在代码里、而不仅仅在提示里去强制执行。
留一条人为通路和一条可恢复的路
没有任何自动防护能抓住一切,所以负责任的功能会留一条人为通路敞开着。给用户一种途径去报告一个糟糕的答案、获得帮助,或在 AI 让他们失望时联系到一个人——并确保那些报告真的去到了某个有人审查的地方。一个消失进虚空的“报告”按钮是做样子,不是防护。
也要为恢复做好规划。当功能产出了错误或有害的东西时,修复它的路径是什么?你应当能够调查一个具体的案例——这意味着记录足够的日志以便重现它——并作出回应,无论是纠正输出、调整系统,还是在严重情况下把功能下线。要有一种办法,在生产中出大问题时迅速把功能关掉。知道你能够停下并恢复,本身就是让“开始”变得负责任的一部分。
规划上线之后的监控
上线不是终点线;它是真实世界行为开始的那个点。在你发布之前,决定你将监视什么、以及你将如何得知某样东西退化了。监控错误率、用户报告的数量和内容,以及滥用或异常使用模式的信号。为那些最要紧的失败设置告警,好让你从自己的监控、而不是从一桩公开投诉里,得知那些问题。
承诺要对你所见的东西采取行动。你收集到的反馈应当回流到改进功能之中——修复浮现出来的失败模式、收紧那些被证明太松的防护栏、在行为改变时更新披露说明。负责任不是你在上线时通过的一道一次性关卡;它是一项持续的承诺,去观察功能在现实世界里如何表现,并随着它和它的用户一起演变而保持它的安全。
总结
负责任地发布一个 AI 功能,意味着在发布之前、而不是之后处理好那些棘手的问题。度量你真实的失败率,并让防护措施与利害相匹配。告诉用户他们正在使用一个 AI,并把它的输出框定得让他们的信任恰到好处。审计实际的数据流以保护隐私,构建防护栏抵御滥用、并把会触发动作的模型输出当作不可信,留一条用于报告和恢复的人为通路——包括一种把功能关掉的办法。然后在上线之后监控,并对你发现的东西采取行动。在发布之前过一遍这份清单,你上线的就会是一个在真实用户遇见它时仍然值得信赖的东西。
