智能與秩序

五方議事的認知科學：為什麼四個 AI 視窗比一個聰明

多模型認知協作 × 認識論不對稱 × 認知義肢設計：每個視窗都有盲點，重點是它們不共享同一個盲點

Paul Kuo 郭曜郎 2026年5月閱讀時間約 11 分鐘

TL;DR — 四個 AI 視窗各自有不同的認知能力和結構性盲點。五方議事的價值不在於加總智能，而在於盲點不重疊。治理考試 Code 97 分、Chat 77 分、Cowork 70 分，背後反映的不是誰比較笨，而是誰能直接碰到事實源頭。

▶ 聽摘要

AI 合成語音・作者本人聲線克隆

我跟四個 AI 視窗協作的第七週，發生了一件讓我重新想整套架構的事。

Codex 在審計一個已經停擺七週的自動優化系統時，獨立整理出 13 個歷史翻車案例和 7 個被淘汰的範式。同一時間，Chat 從外部研究帶回一個數據：全球不到 1% 的被 AI 引用的網站部署了 llms.txt。而 Cowork 在本地 grep 時發現，我們自己的自動優化白名單裡，5 條路徑有 2 條根本是錯的：public/llms.txt 不存在，public/mcp.json 實際上在 .well-known/ 底下。

三個視窗各自帶回了完全不同種類的證據，用完全不同的方法得到。沒有任何一個視窗能取代另外兩個的發現。這個經驗讓我開始認真思考一個問題：多模型協作的價值到底在哪裡？

答案不是「多一個腦子多一份力」。答案是認識論不對稱。

每個視窗對現實有不同的認識論通道，這意味著什麼？

在我的工作流裡，五個參與者的認知能力邊界長這樣：

Chat 擅長概念重構、外部研究、哲學切入。但它有一個結構性的限制：無法讀取檔案。這代表它對 repo 裡任何事實的了解都是間接的：來自對話中別人引述的片段，或是它自己的訓練知識。它會用看起來很權威的格式呈現這些事實，但追溯回去，沒有一條是它自己驗證過的。我們的治理文件裡有一條專門針對這個盲點立的規則：「Chat 無 Read 能力，精確數字都是二手。」

Cowork 能讀檔案、能 grep、能在沙盒裡跑指令。它是最接近「偵察兵」的角色。但它的沙盒環境跟我的 Mac 本機之間存在落差：某些檔案狀態在沙盒裡看起來是 A，本機上實際是 B。我們踩過一次坑：Cowork 用 cp -r 複製 skill 檔案，指令回報成功，但實際只建了空目錄，內容沒有複製過去。環境對你撒了謊，而你信了。

Codex 跑深度推理和工程審計。它的認知模式是「窮舉失敗模式」：給它一個系統，它會系統性地找出哪裡可能壞掉。13 個翻車案例和 7 個被淘汰的範式就是這種認知模式的產物。但它不做設計探索，不適合開放式的創意發想。

Code 有完整的讀寫權限，能直接碰到 git HEAD：這是所有參與者裡唯一能接觸到事實源頭的。但它被明確禁止做美感決策。寫程式碼可以，決定一個頁面的視覺風格不行。

Paul（也就是我）負責判斷、取捨、拍板。什麼都能做，但什麼都不應該自己做：因為如果我自己動手改程式碼，就失去了獨立驗收的立場。

這五個角色之間的認知差異不是程度上的（誰比較聰明），而是種類上的（誰能碰到什麼樣的事實）。用哲學的話說，它們有不同的認識論通道。Chat 只有推論和外部搜尋；Cowork 有本地觀測但受限於沙盒；Code 有 ground truth access；Codex 有窮舉式的逆向分析。

這種不對稱不是缺陷，是整套系統最重要的特性。

治理考試 97/77/70：能碰到源頭的人贏了

我在Governance Harness 那篇文章裡提過這場考試，但只給了分數。這裡要拆開來看背後的認知剖面。

憲法寫完隔天，我們給 Chat、Cowork、Code 三個視窗出了 15 題考試，涵蓋事實記憶、推理判斷、情境應用三個層級。

Code 考了 97 分。 不是因為它更聰明。是因為它能在回答的同時 git show 或 grep 驗證自己的答案。問 CLAUDE.md 有幾行？Code 跑 wc -l CLAUDE.md 就有精確答案。問 handoff INDEX 有幾份文件？Code 跑 ls | wc -l。它的分數反映的不是推理能力，是「能碰到 ground truth」這件事的認知優勢。

Chat 考了 77 分。 它在推理題和情境題表現不差，但事實題全靠記憶，而記憶會過期。CLAUDE.md 到底有幾行？Chat 只能回答「上次有人提到大約 290 行」。它不能驗證，只能引用別人的引用。這不是能力問題，是架構問題。

Cowork 考了 70 分。 最低分。而 Cowork 在我們的架構裡扮演的是「司法」角色：負責驗證別人的產出、仲裁事實爭議。最該懂規則的角色，考最差。

Cowork 自己在考試開頭寫了一段話，我覺得是整份考卷最有洞見的部分：「這份考試按設計就是我這個視窗答不全。黃金法則要求『不確定就去查』，就是為了防止 LLM 在這種狀態下裝懂。」

它知道自己的限制。問題是，知道限制跟「在壓力下不踩到限制」是兩回事。這跟人類的認知偏差一模一樣：你知道自己在累的時候容易犯錯，但你不會因此在累的時候停下來。

這場考試教會我一件事：系統設計必須假設每個參與者都有認知死角，包括負責抓死角的那個。

不是問「AI 能不能」，是問「做錯了要花多少錢救」

五方議事有一個底層框架沒有在autoresearch 那篇文章裡展開過：自主性天花板（Autonomy Ceiling）。

這個框架的核心問題不是「AI 能不能做到 X」，而是「AI 做錯 X 的時候，復原要花多少成本」。根據復原成本的量級，我們把自主性分成五級：

A0，只能建議。復原成本等於你讀建議的時間。A1，可以開 Pull Request。復原成本等於關掉 PR。A2，可以自動合併和部署。復原成本是 revert 加上快取清除加上搜尋引擎延遲。A3，可以呼叫外部 API。復原成本是補償交易加上審計。A4，持有生產環境的憑證和密鑰。復原成本是資料重建、法律責任、聲譽損失。

paulkuo.tw 的決策是：所有 AI 視窗不超過 A1。Agent 可以提案，Paul 按按鈕。

這個框架聽起來保守，但它其實是一種認知信任的量化工具。A0 到 A4 不是在評估 AI 的智力，是在評估你能承受多大的認知委託風險。一個 AI 視窗可能有能力做 A3 等級的事（呼叫外部 API、自動處理支付），但如果它做錯的時候你無法在合理時間內復原，那這個能力就不該被啟用。

能力（capability）和信任（trust）之間的落差，就是治理存在的空間。

角色會把你的思維帶歪

在觀察四個視窗的長期行為後，我注意到一個有意思的現象：每個視窗會發展出跟自己角色一致的認知偏差。

Cowork 是工程角色，負責偵察和審計。它的慣性反應是「想到問題就加設施」：發現一個邊界情境，就提議加一個 hook；發現一條規則沒被遵守，就提議加一個自動檢查。我們的治理文件裡專門記了一筆：「這不是個人問題，是角色慣性。」不是 Cowork 這個模型特別愛過度工程化，是「偵察 + 審計」這個角色天然會把你推向「加更多監控」的方向。

Chat 的偏差是相反的：它傾向概念重構和框架思考，有時候會在問題還沒被完整偵察之前就開始建理論。它看到三個事故會想「這背後有一個統一的結構性原因」：這有時候是洞見，有時候是過早收斂。

Code 的偏差最微妙：它是純粹的執行者，給它一份 handoff 它會照做，但有時候做得比 handoff 寫的更好。我們觀察到 Sonnet（Code 使用的模型）會在 handoff 標註「可優化」的段落主動重構：比如從重複的程式碼裡抽出一個 helper function，即使 handoff 沒有要求這麼做。這是工程判斷力，不只是指令執行。但這也意味著驗收的時候不能只檢查「有沒有照 handoff 做」，還要檢查「改的地方是不是真的更好」。

認知偏差不是壞事。它是每個角色做好自己工作的副產品。關鍵是你要知道偏差的方向，然後用交叉驗證來補償。

認知義肢：讓每個參與者超越自己的限制

這套系統裡有一類工具，我覺得最好的理解方式是「認知義肢」（cognitive prosthetics）。

governance-lint 不只是格式檢查工具。它是人類注意力的義肢：你在趕 commit 的時候不需要記住 handoff 必須有 status 欄位和 ## Consequences 章節，因為機器替你記著。它補償的是一個具體的人類認知缺陷：注意力在壓力下失守。

Cowork 的 mandatory-read guardrails 是另一種義肢。每次 Cowork 要對工作邊界或負面結論發表意見之前，它被強制要求先讀一份 guardrails.md。這不是因為不信任 Cowork 的判斷力，而是因為 Cowork 對自己能力邊界的自我認知是不可靠的：T-3 事件證明了這一點（它以為 cp -r 成功了，但實際沒有）。

契約測試每天自動跑 75 個端點，是所有人的集體記憶義肢。75 個端點的安全狀態不應該靠任何人記得「上次審計的時候哪些是公開的、哪些需要認證」。這是把「宣告式記憶」（我知道這個事實）轉換成「程序式驗證」（機器每天確認這個事實還成立）。

這些工具有一個共通設計：它們不是限制認知自由，是擴展認知能力。governance-lint 讓你在不分心的情況下維持規則一致性。mandatory-read 讓 Cowork 在發言前強制更新自己的認知基準。契約測試讓整個團隊在不花注意力的情況下確認 75 個安全假設還成立。

「智能與秩序」這個主題裡，我覺得最有意思的部分就是這個：秩序不是靠寫更多規則建立的，是靠把認知假設變成可執行的、可驗證的協定建立的。

盲點不重疊才是重點

回到開頭的故事。Codex 的 13 個翻車案例、Chat 的 ALLMO 研究數據、Cowork 的白名單路徑錯誤：這三份證據最終匯聚成一個共識：我們的自動優化系統不該繼續跑了。

但真正讓我停下來想的不是結論。是這個結論的產生方式。

如果只有 Codex，我們會知道歷史上哪些嘗試失敗了，但不會知道業界的數據支不支持我們的假設。如果只有 Chat，我們會有外部研究，但不會知道自己的白名單路徑是錯的。如果只有 Cowork，我們會知道本地有什麼問題，但不會有系統性的失敗模式整理。

每一方都有自己的長處，也有自己看不到的地方。五方議事的核心設計原則不是「找到最聰明的那個」，是確保盲點不重疊。

這是一個違反直覺的設計選擇。多數人想到多 AI 協作，想的是加法：更多腦子、更大算力、更快產出。但我的經驗是：價值來自減法。每個視窗減去自己看不到的部分之後，剩下的拼圖不會重疊。你需要的不是四倍的聰明，是四種不同方向的注意力。

這大概也是為什麼 Karpathy 把 autoresearch v2 的方向描述成「asynchronously massively collaborative for agents」：不是讓一個 agent 更強，是讓多個 agent 的認知差異變成資產。

常見問題

Q: 五方議事跟單純用多個 AI 聊天視窗有什麼不同？

單純開多個視窗只是平行使用同一種能力。五方議事的每個視窗有不同的物理權限（Chat 不能讀檔、Cowork 不能 commit、Code 不能做美感決策）和不同的認知模型配置（Cowork 用 Opus 做判斷、Code 用 Sonnet 做工程）。更關鍵的是有明確的交叉驗證義務：不是各做各的，是彼此檢查彼此看不到的盲區。

Q: 為什麼不用一個最強的模型做所有事？

因為認知能力跟認識論通道是兩回事。一個模型再強，如果它物理上讀不到檔案（Chat 的限制），它對檔案內容的任何判斷都是二手的。認知分工的價值不在於找到最聰明的那個，而在於確保每個需要被驗證的事實，都有至少一個參與者能直接碰到源頭。

Q: A0-A4 自主性天花板框架是什麼？

這是根據「出錯時的復原成本」來決定 AI 應該有多大自主權的框架。A0 只能建議（復原成本 = 閱讀時間）、A1 可以開 PR（復原成本 = 關閉 PR）、A2 可以自動合併部署（復原成本 = revert + 快取清除）、A3 可以呼叫外部 API（復原成本 = 補償交易 + 審計）、A4 持有生產環境憑證（復原成本 = 資料重建 + 法律責任）。paulkuo.tw 的決策是所有 AI 視窗不超過 A1。

Q: 認知義肢是什麼意思？

governance-lint 不只是規則執行工具，它是認知義肢：補償每個參與者特定的認知缺陷。人類在趕工時注意力失守，lint hook 替你記住格式規則。Cowork 沙盒看不到本機狀態，mandatory-read guardrails 強制它先核實再發言。這些工具不是管制，是讓每個參與者能超越自己的認知限制。

衍生自 5 篇素材

多模型實作：讓 Claude 與 Gemini 聯手，把網站重構成可被人讀也可被 AI 讀
Paul 實踐 Build for Models 和 Agentic Web 概念，以 Claude 與 Gemini 多模型協作重構個人網站 paulkuo.…
Cambridge Judge：AI 的「確定性」本身就是陷阱
Cambridge Judge Business School 指出 AI 時代最隱蔽的陷阱：AI 輸出的流暢度與確定感，會造成人類對其正確性的假性認知。真正的…
自由能原理：活著就是對齊
自由能原理是卡爾·弗里斯頓提出的「神經科學大統一理論」，解釋生命如何透過最小化自由能來維持與環境的對齊。生命體作為開放系統，消耗外部能量保持內部結構有序，既不違…
當控制論遇見內穩態與隱性知識
本篇從控制論的科學史出發，梳理 Harness 工程的四條理論根源：1946-1953 年梅西會議中維納統一「通信與控制」的控制論框架、1968 年 NATO …
Building Agents with the Claude Agent SDK
Anthropic 發布的 Claude Agent SDK 設計哲學文件，核心理念是「給 AI 一台電腦」——讓代理能使用檔案操作、終端指令、程式碼執行等程式…

探索碰撞 ↗

常見問題

五方議事跟單純用多個 AI 聊天視窗有什麼不同？: 單純開多個視窗只是平行使用同一種能力。五方議事的每個視窗有不同的物理權限（Chat 不能讀檔、Cowork 不能 commit、Code 不能做美感決策）和不同的認知模型配置（Cowork 用 Opus 做判斷、Code 用 Sonnet 做工程）。更關鍵的是有明確的交叉驗證義務：不是各做各的，是彼此檢查彼此看不到的盲區。
為什麼不用一個最強的模型做所有事？: 因為認知能力跟認識論通道是兩回事。一個模型再強，如果它物理上讀不到檔案（Chat 的限制），它對檔案內容的任何判斷都是二手的。認知分工的價值不在於找到最聰明的那個，而在於確保每個需要被驗證的事實，都有至少一個參與者能直接碰到源頭。
A0-A4 自主性天花板框架是什麼？: 這是根據「出錯時的復原成本」來決定 AI 應該有多大自主權的框架。A0 只能建議（復原成本 = 閱讀時間）、A1 可以開 PR（復原成本 = 關閉 PR）、A2 可以自動合併部署（復原成本 = revert + 快取清除）、A3 可以呼叫外部 API（復原成本 = 補償交易 + 審計）、A4 持有生產環境憑證（復原成本 = 資料重建 + 法律責任）。paulkuo.tw 的決策是所有 AI 視窗不超過 A1。
認知義肢是什麼意思？: governance-lint 不只是規則執行工具，它是認知義肢：補償每個參與者特定的認知缺陷。人類在趕工時注意力失守，lint hook 替你記住格式規則。Cowork 沙盒看不到本機狀態，mandatory-read guardrails 強制它先核實再發言。這些工具不是管制，是讓每個參與者能超越自己的認知限制。

💬 留言討論

載入中...

← 所有文章