评估 AI 工具:一份能挺过演示的清单
AI 工具被设计成在演示里令人眼花缭乱。这份清单帮你用那些经久不变的问题来评判它们——它们决定了工具能否在真实使用中站住脚。
一个好的 AI 演示,是被精心设计来让你停止提问的。例子是精挑细选的,输入是干净的,结果令人印象深刻,而在任何人探查边缘之前,全场就已经向前推进了。那恰恰是该慢下来的时刻。对于一个工具能否在几个月里帮到你而言真正要紧的问题,几乎从来不是演示所回答的那些。这是一份被构建来挺过那场演示的清单——一些你可以对任何 AI 工具发问的、经久不变的问题,无论现在还是多年以后,都不依赖某个基准分数,也不依赖某个等你读到时可能已不存在的功能。
它解决的是你真有的问题吗?
第一个问题,是兴奋会跳过的那个。一个令人印象深刻的工具,如果针对的是一个你并不真正拥有的问题,那它就是伪装成进展的分心之物。在评估质量之前,先说清楚你需要完成的那项具体工作,以及你现在这么做的代价。如果你说不清楚,那你就是在为一个寻找问题的解决方案购物,最终你会因为某样东西聪明、而不是因为它有帮助而采用它。
这听起来显而易见,却不断被忽视,因为 AI 工具确实好玩,而错失恐惧(fear of missing out)是真实的。这里的纪律能省下巨量的时间。许多「AI 工具评估」本应在这个问题上就以一句平静的「这挺巧妙,但它撼动不了任何对我们要紧的东西」而结束。那是一次成功的评估,不是失败的评估。
它在你那些乱糟糟的真实输入上表现如何?
演示用干净、有代表性的输入。你真实的工作更乱——含混、不完整、格式古怪、满是演示从未展示的边缘情况。决定性的检验,是工具在你实际的输入上表现如何,包括那些丑陋的,而不是在那些为讨好它而挑选的精致例子上。把你自己的难案带到每一次评估里,并给它们比简单案例更高的权重。
特别留意失败行为。每个 AI 工具有时都会失败;问题是怎么失败。它是大声而明显地失败、好让你抓住它,还是安静而貌似合理地失败、让一个错误结果溜过去?一个大多数时候正确、却在不知不觉中出错的工具,可能比没有工具更糟,因为它会侵蚀人们在它真正帮上忙的那些情形里对它的信任。一个工具如何失败,比它如何成功,更能告诉你与它相处会是什么样。
核实的成本是多少?
AI 的输出通常需要检查,而那份检查的成本,是每个 AI 工具身上隐藏的税。如果核实输出花的时间几乎和你自己做这项任务一样长,那么无论工具多快产出答案,它都没帮你省下多少。在现实的任务上明确地估算核实成本,并在你相信任何生产力宣称之前,把它从表面的时间节省里减掉。
核实成本最高的地方,恰恰是你最想要帮助的地方:陌生的领域,那里你最没有能力去发现一个微妙的错误。一个在你已经精通的事情上帮得上忙、却在你不在行处无法被信任的工具,可能解决的是问题中错误的那一半。不要只问「输出好不好」,而要问「确认输出好需要我花多少力气」,并用第二个答案来评判这个工具。
你的数据去了哪里?
任何你喂进真实工作的 AI 工具,都在处理你的数据,你欠自己一个关于它去了哪里的清晰答案。什么离开了你的环境、它在哪里被处理、是否被保留、会不会被用来改进供应商的模型?对于低风险的个人使用,这或许无关紧要。但对于任何敏感的、专有的,或受对他人义务约束的东西,这是一个把关性的问题,能在质量还没进入对话之前,就把一个本来出色的工具排除掉。
这里的条款差异极大,并且随时间变化,所以去读当前的政策,而不是相信一份摘要、一个默认假设,或者去年还成立的东西。把数据处理当作一个早早就要核查的硬约束,而不是一个晚来谈判的细节。在你已经围绕一个工具搭好工作流之后,才发现一项致命的数据做法,是学会先发问的一种昂贵方式。
它还会在吗,你又能离开吗?
AI 工具发展很快,工具迅速出现又消失。在你围绕某一个搭起工作流之前,问问你正变得有多依赖它,以及离开它会有多难。你能导出你的数据和你的成果吗?这个工具是一个你能替换的便利层,还是一个换掉会很痛苦的根基?锁定(lock-in)并不自动构成淘汰理由,但它应当是一个有意识的选择,是被计入成本的,而不是稀里糊涂撞进去的。
与之相关的是稳定性问题。一个在你脚下不可预测地改变行为的工具,会悄悄破坏一个你依赖的工作流。你不需要一份永久性的保证——在这个领域里没有这种东西——但你应该理解你的暴露面,并避免把某样关键的东西押在一个你输不起的工具上。在格局变动如此之快时,可逆的选择几乎总是更安全的那个。
在你真实的用量下它实际花多少钱?
演示用量和真实用量有着非常不同的价签。AI 工具的成本往往与你用得多少成正比,这意味着账单随成功而扩张:工具越有用,你用得越多,它花得越多。在你现实的、持续的用量下估算成本,而不是在试用级别,并检查它随用量增长时的表现。一个试用起来便宜的工具,可能会变成一个依赖起来昂贵的东西。
成本不只是钱。把搭建、集成、学习这个工具,以及随它变化而维护它的时间也算进去。一个贴着低价标签、却有着高运营开销的工具,实践中可能比一个贵一些却就是好用的工具花得更多。总拥有成本——金钱、时间和注意力合在一起——才是那个要紧的数字,而它很少是定价页上的那个。
像来真的那样跑一次试用
一旦一个工具在纸面上通过了这些问题,就用一次诚实的试用来证明它。在真实的任务上使用它,时间长到新鲜感褪去,并留意你真正的行为:你是不是不断伸手去用它,还是它悄悄淡出了你的日常?在兴奋消退之后你是否真的还在用一个工具,是关于价值最真实的信号,没有任何功能列表能预测它。
提防两种偏见。新奇效应会让任何新工具仅仅因为它新就感觉很有生产力,所以要在光芒退去之后再评判。而沉没成本偏见会让你为一个你投入精力去采用的工具辩护,所以提前决定好「这行不通」会是什么样子,并愿意走开。一次你无法失败的试用不是试用;它是一份辩词。
总结
决定一个 AI 工具能否赢得它位置的那些问题,是经久不变且不起眼的:它解决一个真实的问题吗,它在你乱糟糟的输入上站得住吗,核实的成本是多少,你的数据去了哪里,你被锁定得有多深,以及它在真实用量下实际花多少钱?这些没有一个是演示给你看的,而这恰恰是它们要紧的原因。在兴奋之前跑一遍清单,用一次诚实的试用去证明它,你就会采用那少数几个真正帮得上忙的工具,而不是那许多仅仅令人印象深刻的。
