Ray Kuo|一人 × AI 工作流

← 回文章列表

我把 45 支 AI 工作流查了一遍,發現它們在用我不知道的方式出錯

AI 工作流・AI 治理・無聲腐化・對抗式覆驗・AI 導入

你把愈來愈多事丟給 AI 之後,省下來的時間,會慢慢換成另一種焦慮:它有沒有在我看不到的地方,悄悄做錯了什麼?我自己也是。我原本只想花半小時「確認一下沒有過時的設定」,結果在 45 支我自己建的自動化流程裡,挖出 14 個我完全沒察覺的錯誤。

問題其實不是「AI 夠不夠聰明」。它很聰明,聰明到出錯時也一臉自信。問題是:你有沒有一套「預設它會出錯、而且有辦法主動去抓」的機制。沒有的話,有可能你不是把工作做得更有效率,而是在用規模更大的方式,持續累積你自己察覺不到的錯誤——至少,我遇到的是這樣。

你以為改好了,但改的那一層根本沒被執行到

先講最讓我意外的一個。

我在 Claude Code 裡養了一套自己寫的 AI 技能(skill),目前 45 支,每一支就是一條固定工作流——把 PDF 翻成中文、寫文章、做品牌體檢、選工具,像一個個小部門各司其職。

我很早以前就在「總規則」那一層立過一條規定:寫社群貼文要走自家品牌規格,別套某些通用模板。我以為改了上層,下面就會跟著走。

結果不是。有 4 支技能的「內文」,還偷偷指向那些被我明令禁止的舊模板,照著舊指令繼續跑。不是 AI 不聽話,是「規則生效的那一層」和「工作流實際讀取的那一層」根本是兩回事——我改的是 A,但它們每天讀的是 B。就像公司改了規定,但第一線的作業手冊沒人去印新版:你以為改了上面,下面還是照舊版在做事。

這就是我想講的核心:無聲腐化(silent drift)——系統悄悄「漂移」到偏離你當初設定的狀態。它沒壞、沒報錯、繼續給你看起來很對的輸出,問題卻在你看不見的地方一點一點累積。你改了一條設定,但到底誰去確認過每一個執行端都真的更新了?多數時候,答案是沒有人。

AI 出包的時候,它不會舉手告訴你

這類錯誤之所以特別難抓,根本原因是:AI 愈有自信,你愈不會想去質疑它。

底下還疊著三個結構性的原因。

第一,大型語言模型(LLM)給你答案的時候不會亮紅燈。它不會說「這段我不太確定」,而是用一模一樣的語氣,把對的和錯的一起自信地交給你。

第二,你通常不會回頭去看「已經在跑」的流程。會被你盯著的,往往是還沒上線、還在懷疑的東西;一旦某個流程「跑起來了、看起來沒事」,它就從你的注意力裡消失了。

第三,規模愈大,盲點愈多。45 支技能,不是靠肉眼一支一支核對能顧得過來的數量。

這三點之上,再加一層信任偏誤:你會懷疑一個吞吞吐吐的人,卻不會懷疑一個對答如流的人——哪怕後者錯得更離譜。這讓你更難去懷疑「自己親手建起來的東西」。它愈順,你愈放心;而放心,往往讓問題最難被發現。

我實際怎麼查的:四個角度,加一個「不准自己查自己」

我用四個角度、再加一道「不准系統自己查自己」的對抗式覆驗(adversarial review),把全部 45 支掃了一遍。

四個角度是:

只有這四個角度還不夠,因為有個盲點繞不開:我自己建的系統,跟我自己的判斷,共用同一套思維框架。我看不出來的東西,自己再查一遍,還是看不出來。

所以我加了對抗式覆驗:派一個獨立的、沒做過這份工作的 AI 去找碴,不准系統自己檢查自己。它會問出我問不出來的問題,因為它沒有我的盲點。

這裡得誠實講一段。這個查核流程本身,就出包了。

我本來想用多代理自動化來跑,結果它連撞三次伺服器流量限制(rate limit),整批掛掉,逼我退回去單線、一支一支手動跑。更值得警惕的是另一件事:我下的一個搜尋指令其實寫壞了,根本沒搜到東西,它卻安安靜靜回報「全部乾淨」。

那一刻才是重點。一個假陰性(false negative)——工具明明出了問題,卻一臉自信跟你說沒事——比它直接報錯危險得多。報錯你還會去修;回報「乾淨」,你只會放心地走開。連我用來抓錯的工具都會這樣,那它替我查的其他東西,我又憑什麼照單全收?

揪出來的 14 個問題,攤開給你看

先說一件事:我堅持「整套逐支深讀」,沒有抽查。原因很簡單——盲點的定義就是「你不會剛好抽到它」。如果我只挑幾支看起來最可疑的看,剩下的全憑運氣,這次大概會漏掉一半。

兩輪修正下來,總共揪出 14 個真問題、動到 15 個檔。分類是這樣:

但我不想把這寫成一個「系統終於完美了」的結局。它不是。誠實的講法是:這一輪體檢之後,這套系統比之前安全一點,而下一次,很可能還會冒出新的漂移。這不是一勞永逸的修復,是一次例行保養。

三條可以帶走的原則,不只關於我那 45 支技能

把 45 支技能放一邊,這次真正可以遷移的,是三件事。

把 AI 當系統,不要當工具。 出錯的時候,先修產生錯誤的機制,不要只修這一次的輸出。同一個結構性問題,你今天手動改掉這一筆、卻不去動產生它的機制,它很可能改天以另一種形式再回來。

預設你的 AI 工作流會漂移。 規則改了,執行端不會自動跟上,這幾乎是常態,不是例外。所以「去核對每個執行端有沒有真的更新」是人要主動做的事——你不能把「把關」也外包給那個你正在把關的對象。

對抗式覆驗不是偏執,是規模化之後抓盲點最有效的辦法。 你和你建的系統共用同一個腦,天生找不到它找不到的東西。派一個沒做過這件事的外腦進來,才有機會打破這個迴圈。

說到底——建一套 AI 系統不難,現在門檻低到一個下午就能堆出一個能跑的流程。讓它半年後還有機會跑得準,才是真正的工作。

最後,一個你這週就能做的小動作

我不是要你也去養 45 支技能。那是我的情況,不一定是你的。

門檻最低的起手式是這樣:把你最常讓 AI 重複跑的那一條流程找出來——你的固定提示詞(prompt)、你存起來的某個指令、某個自動化——然後問自己一個問題:

如果它從某天開始悄悄跑錯了,我最近一次,會在哪裡發現?

如果你的答案是「我不確定」,那個「不確定」,就是你第一個該補上的查核點。

我平常就是這樣替自己管這套系統的:不追求一個全自動、再也不用管的完美系統,而是預設它會錯,然後留好抓錯的縫。

你上一次對自己的 AI 工作流做體檢,是什麼時候?

我是 Ray Kuo(raykuo.aiflow)——一個人 × 一套 AI 工作流的實踐者。我們下一篇見。

本文方法與案例為本人實作,草稿由 AI 協助整理。