TL;DR — 四個 AI 視窗各自有不同的認知能力和結構性盲點。五方議事的價值不在於加總智能,而在於盲點不重疊。治理考試 Code 97 分、Chat 77 分、Cowork 70 分,背後反映的不是誰比較笨,而是誰能直接碰到事實源頭。
我跟四個 AI 視窗協作的第七週,發生了一件讓我重新想整套架構的事。
Codex 在審計一個已經停擺七週的自動優化系統時,獨立整理出 13 個歷史翻車案例和 7 個被淘汰的範式。同一時間,Chat 從外部研究帶回一個數據:全球不到 1% 的被 AI 引用的網站部署了 llms.txt。而 Cowork 在本地 grep 時發現,我們自己的自動優化白名單裡,5 條路徑有 2 條根本是錯的——public/llms.txt 不存在,public/mcp.json 實際上在 .well-known/ 底下。
三個視窗各自帶回了完全不同種類的證據,用完全不同的方法得到。沒有任何一個視窗能取代另外兩個的發現。這個經驗讓我開始認真思考一個問題:多模型協作的價值到底在哪裡?
答案不是「多一個腦子多一份力」。答案是認識論不對稱。
每個視窗對現實有不同的認識論通道,這意味著什麼?
在我的工作流裡,五個參與者的認知能力邊界長這樣:
Chat 擅長概念重構、外部研究、哲學切入。但它有一個結構性的限制:無法讀取檔案。這代表它對 repo 裡任何事實的了解都是間接的——來自對話中別人引述的片段,或是它自己的訓練知識。它會用看起來很權威的格式呈現這些事實,但追溯回去,沒有一條是它自己驗證過的。我們的治理文件裡有一條專門針對這個盲點立的規則:「Chat 無 Read 能力,精確數字都是二手。」
Cowork 能讀檔案、能 grep、能在沙盒裡跑指令。它是最接近「偵察兵」的角色。但它的沙盒環境跟我的 Mac 本機之間存在落差——某些檔案狀態在沙盒裡看起來是 A,本機上實際是 B。我們踩過一次坑:Cowork 用 cp -r 複製 skill 檔案,指令回報成功,但實際只建了空目錄,內容沒有複製過去。環境對你撒了謊,而你信了。
Codex 跑深度推理和工程審計。它的認知模式是「窮舉失敗模式」——給它一個系統,它會系統性地找出哪裡可能壞掉。13 個翻車案例和 7 個被淘汰的範式就是這種認知模式的產物。但它不做設計探索,不適合開放式的創意發想。
Code 有完整的讀寫權限,能直接碰到 git HEAD——這是所有參與者裡唯一能接觸到事實源頭的。但它被明確禁止做美感決策。寫程式碼可以,決定一個頁面的視覺風格不行。
Paul(也就是我)負責判斷、取捨、拍板。什麼都能做,但什麼都不應該自己做——因為如果我自己動手改程式碼,就失去了獨立驗收的立場。
這五個角色之間的認知差異不是程度上的(誰比較聰明),而是種類上的(誰能碰到什麼樣的事實)。用哲學的話說,它們有不同的認識論通道。Chat 只有推論和外部搜尋;Cowork 有本地觀測但受限於沙盒;Code 有 ground truth access;Codex 有窮舉式的逆向分析。
這種不對稱不是缺陷,是整套系統最重要的特性。
治理考試 97/77/70:能碰到源頭的人贏了
我在Governance Harness 那篇文章裡提過這場考試,但只給了分數。這裡要拆開來看背後的認知剖面。
憲法寫完隔天,我們給 Chat、Cowork、Code 三個視窗出了 15 題考試,涵蓋事實記憶、推理判斷、情境應用三個層級。
Code 考了 97 分。 不是因為它更聰明。是因為它能在回答的同時 git show 或 grep 驗證自己的答案。問 CLAUDE.md 有幾行?Code 跑 wc -l CLAUDE.md 就有精確答案。問 handoff INDEX 有幾份文件?Code 跑 ls | wc -l。它的分數反映的不是推理能力,是「能碰到 ground truth」這件事的認知優勢。
Chat 考了 77 分。 它在推理題和情境題表現不差,但事實題全靠記憶——而記憶會過期。CLAUDE.md 到底有幾行?Chat 只能回答「上次有人提到大約 290 行」。它不能驗證,只能引用別人的引用。這不是能力問題,是架構問題。
Cowork 考了 70 分。 最低分。而 Cowork 在我們的架構裡扮演的是「司法」角色——負責驗證別人的產出、仲裁事實爭議。最該懂規則的角色,考最差。
Cowork 自己在考試開頭寫了一段話,我覺得是整份考卷最有洞見的部分:「這份考試按設計就是我這個視窗答不全。黃金法則要求『不確定就去查』,就是為了防止 LLM 在這種狀態下裝懂。」
它知道自己的限制。問題是,知道限制跟「在壓力下不踩到限制」是兩回事。這跟人類的認知偏差一模一樣——你知道自己在累的時候容易犯錯,但你不會因此在累的時候停下來。
這場考試教會我一件事:系統設計必須假設每個參與者都有認知死角,包括負責抓死角的那個。
不是問「AI 能不能」,是問「做錯了要花多少錢救」
五方議事有一個底層框架沒有在autoresearch 那篇文章裡展開過:自主性天花板(Autonomy Ceiling)。
這個框架的核心問題不是「AI 能不能做到 X」,而是「AI 做錯 X 的時候,復原要花多少成本」。根據復原成本的量級,我們把自主性分成五級:
A0,只能建議。復原成本等於你讀建議的時間。A1,可以開 Pull Request。復原成本等於關掉 PR。A2,可以自動合併和部署。復原成本是 revert 加上快取清除加上搜尋引擎延遲。A3,可以呼叫外部 API。復原成本是補償交易加上審計。A4,持有生產環境的憑證和密鑰。復原成本是資料重建、法律責任、聲譽損失。
paulkuo.tw 的決策是:所有 AI 視窗不超過 A1。Agent 可以提案,Paul 按按鈕。
這個框架聽起來保守,但它其實是一種認知信任的量化工具。A0 到 A4 不是在評估 AI 的智力,是在評估你能承受多大的認知委託風險。一個 AI 視窗可能有能力做 A3 等級的事(呼叫外部 API、自動處理支付),但如果它做錯的時候你無法在合理時間內復原,那這個能力就不該被啟用。
能力(capability)和信任(trust)之間的落差,就是治理存在的空間。
角色會把你的思維帶歪
在觀察四個視窗的長期行為後,我注意到一個有意思的現象:每個視窗會發展出跟自己角色一致的認知偏差。
Cowork 是工程角色,負責偵察和審計。它的慣性反應是「想到問題就加設施」——發現一個邊界情境,就提議加一個 hook;發現一條規則沒被遵守,就提議加一個自動檢查。我們的治理文件裡專門記了一筆:「這不是個人問題,是角色慣性。」不是 Cowork 這個模型特別愛過度工程化,是「偵察 + 審計」這個角色天然會把你推向「加更多監控」的方向。
Chat 的偏差是相反的:它傾向概念重構和框架思考,有時候會在問題還沒被完整偵察之前就開始建理論。它看到三個事故會想「這背後有一個統一的結構性原因」——這有時候是洞見,有時候是過早收斂。
Code 的偏差最微妙:它是純粹的執行者,給它一份 handoff 它會照做,但有時候做得比 handoff 寫的更好。我們觀察到 Sonnet(Code 使用的模型)會在 handoff 標註「可優化」的段落主動重構——比如從重複的程式碼裡抽出一個 helper function,即使 handoff 沒有要求這麼做。這是工程判斷力,不只是指令執行。但這也意味著驗收的時候不能只檢查「有沒有照 handoff 做」,還要檢查「改的地方是不是真的更好」。
認知偏差不是壞事。它是每個角色做好自己工作的副產品。關鍵是你要知道偏差的方向,然後用交叉驗證來補償。
認知義肢:讓每個參與者超越自己的限制
這套系統裡有一類工具,我覺得最好的理解方式是「認知義肢」(cognitive prosthetics)。
governance-lint 不只是格式檢查工具。它是人類注意力的義肢——你在趕 commit 的時候不需要記住 handoff 必須有 status 欄位和 ## Consequences 章節,因為機器替你記著。它補償的是一個具體的人類認知缺陷:注意力在壓力下失守。
Cowork 的 mandatory-read guardrails 是另一種義肢。每次 Cowork 要對工作邊界或負面結論發表意見之前,它被強制要求先讀一份 guardrails.md。這不是因為不信任 Cowork 的判斷力,而是因為 Cowork 對自己能力邊界的自我認知是不可靠的——T-3 事件證明了這一點(它以為 cp -r 成功了,但實際沒有)。
契約測試每天自動跑 75 個端點,是所有人的集體記憶義肢。75 個端點的安全狀態不應該靠任何人記得「上次審計的時候哪些是公開的、哪些需要認證」。這是把「宣告式記憶」(我知道這個事實)轉換成「程序式驗證」(機器每天確認這個事實還成立)。
這些工具有一個共通設計:它們不是限制認知自由,是擴展認知能力。governance-lint 讓你在不分心的情況下維持規則一致性。mandatory-read 讓 Cowork 在發言前強制更新自己的認知基準。契約測試讓整個團隊在不花注意力的情況下確認 75 個安全假設還成立。
「AI 與人類秩序」這個主題裡,我覺得最有意思的部分就是這個:秩序不是靠寫更多規則建立的,是靠把認知假設變成可執行的、可驗證的協定建立的。
盲點不重疊才是重點
回到開頭的故事。Codex 的 13 個翻車案例、Chat 的 ALLMO 研究數據、Cowork 的白名單路徑錯誤——這三份證據最終匯聚成一個共識:我們的自動優化系統不該繼續跑了。
但真正讓我停下來想的不是結論。是這個結論的產生方式。
如果只有 Codex,我們會知道歷史上哪些嘗試失敗了,但不會知道業界的數據支不支持我們的假設。如果只有 Chat,我們會有外部研究,但不會知道自己的白名單路徑是錯的。如果只有 Cowork,我們會知道本地有什麼問題,但不會有系統性的失敗模式整理。
每一方都有自己的長處,也有自己看不到的地方。五方議事的核心設計原則不是「找到最聰明的那個」,是確保盲點不重疊。
這是一個違反直覺的設計選擇。多數人想到多 AI 協作,想的是加法——更多腦子、更大算力、更快產出。但我的經驗是:價值來自減法。每個視窗減去自己看不到的部分之後,剩下的拼圖不會重疊。你需要的不是四倍的聰明,是四種不同方向的注意力。
這大概也是為什麼 Karpathy 把 autoresearch v2 的方向描述成「asynchronously massively collaborative for agents」——不是讓一個 agent 更強,是讓多個 agent 的認知差異變成資產。
常見問題
Q: 五方議事跟單純用多個 AI 聊天視窗有什麼不同?
單純開多個視窗只是平行使用同一種能力。五方議事的每個視窗有不同的物理權限(Chat 不能讀檔、Cowork 不能 commit、Code 不能做美感決策)和不同的認知模型配置(Cowork 用 Opus 做判斷、Code 用 Sonnet 做工程)。更關鍵的是有明確的交叉驗證義務——不是各做各的,是彼此檢查彼此看不到的盲區。
Q: 為什麼不用一個最強的模型做所有事?
因為認知能力跟認識論通道是兩回事。一個模型再強,如果它物理上讀不到檔案(Chat 的限制),它對檔案內容的任何判斷都是二手的。認知分工的價值不在於找到最聰明的那個,而在於確保每個需要被驗證的事實,都有至少一個參與者能直接碰到源頭。
Q: A0-A4 自主性天花板框架是什麼?
這是根據「出錯時的復原成本」來決定 AI 應該有多大自主權的框架。A0 只能建議(復原成本 = 閱讀時間)、A1 可以開 PR(復原成本 = 關閉 PR)、A2 可以自動合併部署(復原成本 = revert + 快取清除)、A3 可以呼叫外部 API(復原成本 = 補償交易 + 審計)、A4 持有生產環境憑證(復原成本 = 資料重建 + 法律責任)。paulkuo.tw 的決策是所有 AI 視窗不超過 A1。
Q: 認知義肢是什麼意思?
governance-lint 不只是規則執行工具,它是認知義肢——補償每個參與者特定的認知缺陷。人類在趕工時注意力失守,lint hook 替你記住格式規則。Cowork 沙盒看不到本機狀態,mandatory-read guardrails 強制它先核實再發言。這些工具不是管制,是讓每個參與者能超越自己的認知限制。
💬 留言討論
載入中...