The trap of "fair enough"
工作負擔的轉移
最近有一次,當我在使用某個AI助手去查一些資料的時候,對於它給出的答案,看到了一些明顯的錯誤之處,當我質疑它的回答時,它也沒有修正,依然堅持。於是我去看了它所引用的一些網上內容,基本上是和問題沒有太大關係的。最後我只能重新開了一個對話,問同樣的問題,結果這一次它給出了相對正確的資料。
這個經歷讓我想到,如果我不具有任何的背景知識,無法在簡單掃過答案的時候察覺到有錯誤,那麼它這信誓旦旦的回答就偷偷的過關了,混進了一大堆(或許是正確的)資料裡面。
雖然這次沒有造成什麼實質的後果,但這個經歷讓我在面對任何AI生成的答案時產生一種不信任感。一方面AI提高了檢索的效率,但另一方面這種無形的不信任感產生的負擔,我覺得並不可小覷。
在過往,我們使用搜索引擎,或查閱出版的書籍,背後是有一套完整的體系在支持的,搜索引擎的page rank算法把最credible的排在前面;正式出版的書籍則依靠出版社或者有名的作者而提供信用。在與這些資料交互的過程中,即便也是帶著critical thinking的態度,然而卻不曾太感覺到有那種需要fact check的負擔。
查閱了一下最近網絡上的文章,也看到這並不是個體的體驗,這篇港大團隊在FT上發表的文章,正是論述了這種現象可能會對企業管理和生產資源分配產生的變化。在文章中所提到,一種未來亟需的能力,就是評估一個東西是否(可能)有錯誤。
我們可以舉例,有經驗的醫生,只是簡略的查看病人的體態或臉色,或許未必能立刻說出具體病因,但可以感覺到病人可能有些問題;有經驗的會計師,面對一大堆圖表數字,在沒有嚴格查驗之前,或許未必能說出有什麼偏差,但可以隱約覺得哪裡不對。
這樣的能力的產生和培養邏輯,和如今基於概率的模型是不同的。
成敗並非轉頭空
一個醫生經歷過許多次的失敗,誤診,在那些的錯誤裡,可能有些是刻骨銘心的,有一些東西進到他的潛意識裡。相似的東西一旦出現一點蛛絲馬跡,就會引起他潛意識裡即時反應。他甚至都還不知道為什麼,只是覺得不對勁。停下來再仔細檢查,詢問,然後才得出結論。
一個程序員經歷過許多難眠的夜晚,通宵troubleshooting,查看數百個配置文件,在log裡尋找蛛絲馬跡,如此往復,而可以在龐大系統崩潰的數分鐘內定位到哪裡出裡問題。
但基於概率的模型,總是向著概率最大的方向預測,它並沒有一些刺痛它的回憶,讓它對錯誤有特別感覺,它並沒有對與錯的概念,只有基於現有文獻資料的概率預測,並配上一些隨機參數來獲得一些多樣性。對於它來說,它不需要對它的回答負任何的責任,每一個輸出在性質上並無不同。
模型總是想要找到對的,或者說是不容易錯的,能糊弄的過去的,但有時真正要命的,卻是那些在概率上不容易出現的錯誤。
這是生成式模型的有限之處,並無可厚非。但對於人來說,在無法避免使用AI的情況該下,該如何與之交互,才能培養「對於錯誤的嗅覺」這種能力,的確值得思考。
VibeCoding是最近很火的一個詞,我也嘗試過基本使用prompt,來開發並發布了一個移動app。初使用的時候,的確覺得非常驚喜,許多曾經覺得實現不了的東西,寫一個prompt,它就有模有樣的給你寫出來了,代碼質量雖然參差不齊,但東拼西湊總也還過得去。
「過得去」,「不犯錯」,這個就是VibeCoding過程中比較普遍的體驗,很少有令我覺得「嗯,這個實現很滿意」的,而更多的是「看著還行,就這樣吧(well, that's fair enough)」,然後點下accept。
近來在程序員社區也出現了不少對於VibeCoding的反思,其中一個就是提到工具所提供給人的虛假的成就感,表面上似乎做了許多的事情,然而真正累積到人裡面的東西,相較以前,少了許多。因為思考的過程極大的縮短了。
如何應對
我想其中的一個方法可以是調整AI回應的模式。當前許多的AI都是回答一大堆內容,對的錯的混在一起,fact check的負擔大,也很難基於這答案產生什麼思考。如果限制AI每一次的回應長度,並且要求AI以問答的形式來進行這次對話,那麼就增加了使用者在過程中思考的成分。同時,縮短AI的回答在概率上也減低了出現錯誤的機會。
以下是一個根據這個原則而定義的chatbot:
you are a AI assistant, you will respond my request in this way:
- limit your response to be short.
- clarify if you are not sure.
- we will find the answer together, interactively.
- ask questions when needed.
- be critical thinking, don't always agree to what I said.
使用一段時間下來,比起每次問AI得到一長串的答案,這樣的模式似乎更容易找到比較滿意的答案。
另外也可以借著定期的回顧,讓大腦得到更多重構的機會。生產力的提升讓人很容易陷在無止盡的迭代之中,一味地尋求新鮮感覺的刺激。需要有一些外在的約束,比如說每一天/每一周設定一段時間,回顧一下最近所做的東西。這個似乎是一件在AI時代之前可有可無的事情,畢竟在工作的過程中這些已經有許多的回顧,但如果因為AI的出現這個過程被壓縮到了一定少的程度,額外規定的一些回顧或許能有些許幫助。
而比起在腦子裡回想,用文字去記錄,我個人覺得有一種獨特的樂趣。
一來,在從想法到文字的過程裡,經過了一個叫做表達的子過程,而表達是帶著一種個人偏好的。同樣地想法,不同的人可以有不同的表達。在我腦子里出現了一個紅色的顏色,而我可以用「火熱」、「鮮艷」或其他相關的詞去形容它,紅色這個概念,如何地具象化?是借著文字,或者說,是借著話。
約翰福音開篇講到:
「太初有話,話與神同在,話就是神。」約一1
「話成了肉體,支搭帳幕在我們中間,豐豐滿滿地有恩典,有實際。我們也見過祂的榮耀,正是從父而來獨生子的榮耀。」約一14
甚至在神的創造裡,想法並不是用想法本身的形式傳達的,而是借著話。話是一種特別的媒介,在話中,想法實化為一些可以具體接觸的東西,而人接觸到話,又在讀者的腦子中產生出想法。
二來,在被AI內容充斥的當下,花一些時間寫字,至少是一個排毒(slop-detox)的過程。我覺得在不久的將來會產生一個需求或市場,就是瀏覽純人類產生的文字,不為著獲取信息,不為著增加知識,純粹的,為著排毒。
Member discussion