8 min read

The trap of "fair enough"

工作负担的转移

最近有一次,当我在使用某个AI助手去查一些资料的时候,对于它给出的答案,看到了一些明显的错误之处,当我质疑它的回答时,它也没有修正,依然坚持。于是我去看了它所引用的一些网上内容,基本上是和问题没有太大关系的。最后我只能重新开了一个对话,问同样的问题,结果这一次它给出了相对正确的资料。

这个经历让我想到,如果我不具有任何的背景知识,无法在简单扫过答案的时候察觉到有错误,那么它这信誓旦旦的回答就偷偷的过关了,混进了一大堆(或许是正确的)资料里面。

虽然这次没有造成什么实质的后果,但这个经历让我在面对任何AI生成的答案时产生一种不信任感。一方面AI提高了检索的效率,但另一方面这种无形的不信任感产生的负担,我觉得并不可小觑。

在过往,我们使用搜索引擎,或查阅出版的书籍,背后是有一套完整的体系在支持的,搜索引擎的page rank算法把最credible的排在前面;正式出版的书籍则依靠出版社或者有名的作者而提供信用。在与这些资料交互的过程中,即便也是带着critical thinking的态度,然而却不曾太感觉到有那种需要fact check的负担。

查阅了一下最近网络上的文章,也看到这并不是个体的体验,这篇港大团队在FT上发表的文章 ,正是论述了这种现象可能会对企业管理和生产资源分配产生的变化。在文章中所提到,一种未来亟需的能力,就是评估一个东西是否(可能)有错误。

我们可以举例,有经验的医生,只是简略的查看病人的体态或脸色,或许未必能立刻说出具体病因,但可以感觉到病人可能有些问题;有经验的会计师,面对一大堆图表数字,在没有严格查验之前,或许未必能说出有什么偏差,但可以隐约觉得哪里不对。

这样的能力的产生和培养逻辑,和如今基于概率的模型是不同的。

成败并非转头空

一个医生经历过许多次的失败,误诊,在那些的错误里,可能有些是刻骨铭心的,有一些东西进到他的潜意识里。相似的东西一旦出现一点蛛丝马迹,就会引起他潜意识里即时的反应。他甚至都还不知道为什么,只是觉得不对劲。停下来再仔细检查,询问,然后才得出结论。

一个程序员经历过许多难免的夜晚,通宵debug,查看数百个配置文件,在log里寻找蛛丝马迹,如此往复,而可以在庞大系统崩溃的数分钟内定位到哪里出里问题。

但基于概率的模型,总是向着概率最大的方向预测,它并没有一些刺痛它的回忆,让它对错误有特别的感觉,它并没有对与错的概念,只有基于现有文献资料的概率预测,并配上一些随机参数来获得一些多样性。对于它来说,它不需要对它的回答负任何的责任,每一个输出在性质上并无不同。

模型总是想要找到对的,或者说是不容易错的,能糊弄的过去的,但真正要命的,却是那些在概率上不容易出现的错误。

这是生成式模型的有限之处,并无可厚非。但对于人来说,在无法避免使用AI的情况该下,该如何与之交互,才能培养“对于错误的嗅觉”这种能力,的确值得思考。

VibeCoding是最近很火的一个词,我也尝试过基本使用prompt,来开发并发布了一个移动app。初使用的时候,的确觉得非常惊喜,许多曾经觉得实现不了的东西,写一个prompt,它就有模有样的给你写出来了,代码质量虽然参差不齐,但东拼西凑总也还过得去。

“过得去”,“不犯错”,这个就是VibeCoding过程中比较普遍的体验,很少有令我觉得“wow,这个实现的真不错”的,而更多的是“看着还行,就这样吧(well, that's fair enough)”,然后点下accept。

近来在程序员社区也出现了不少对于VibeCoding的反思,其中一个就是提到工具所提供给人的虚假的成就感,表面上似乎做了许多的事情,然而真正累积到人里面的东西,相较以前,少了许多。因为思考的过程极大的缩短了。

如何应对

我想其中的一个方法可以是调整AI回应的模式。当前许多的AI都是回答一大堆的内容,对的错的混在一起,fact check的负担大,也很难基于这答案产生什么思考。如果限制AI每一次的回应长度,并且要求AI以问答的形式来进行这次对话,那么就增加了使用者在过程中思考的成分。同时,缩短AI的回答在概率上也减低了出现错误的机会。

以下是一个根据这个原则而定义的chatbot:

you are a AI assistant, you will respond my request in this way:

1. limit your response to be short.
2. clarify if you are not sure.
3. we will find the answer together, interactively.
4. ask questions when needed.
5. be critical thinking, don't always agree what I said.

使用一段时间下来,比起每次问AI得到一长串的答案,这样的模式似乎更容易找到比较满意的答案。

另外也可以借着定期的回顾,让大脑得到更多重构的机会。生产力的提升让人很容易陷在无止尽的迭代之中,一味地寻求新鲜感觉的刺激。需要有一些外在的约束,比如说每一天/每一周设定一段时间,回顾一下最近所做的东西。这个似乎是一件在AI时代之前可有可无的事情,毕竟在工作的过程中这些已经有许多的回顾,但如果因为AI的出现这个过程被压缩到了一定少的程度,额外规定的一些回顾或许能有些许帮助。

而比起在脑子里回想,用文字去记录,我个人觉得有一种独特的乐趣。

一来,在从想法到文字的过程里,经过了一个叫做表达的子过程,而表达是带着一种个人偏好的。同样地想法,不同的人可以有不同的表达。在我脑子里出现了一个红色的颜色,而我可以用“火热”、“鲜艳”或其他相关的词去形容它,红色这个概念,如何地具象化?是借着文字,或者说,是借着话。

约翰福音开篇讲到:

「太初有话,话与神同在,话就是神。」约一14

「话成了肉体,支搭帐幕在我们中间,丰丰满满地有恩典,有实际。我们也见过祂的荣耀,正是从父而来独生子的荣耀。」约一14

甚至在神的创造里,想法并不是用想法本身的形式传达的,而是借着话。话是一种特别的媒介,在话中,想法实化为一些可以具体接触的东西,而人接触到话,又在读者的脑子中产生出想法。

二来,在被AI内容充斥的当下,花一些时间写字,至少是一个排毒的過程(slop-detox)。我觉得在不久的将来会产生一个需求或市场,就是浏览纯人类产生的文字,不为着获取信息,不为着增加知识,纯粹的,为着排毒。