TL;DR — 兩個月前我把 Karpathy autoresearch 具身成「讓 paulkuo.tw 站台檔自動 mutate」、七週後系統靜靜失效。一場橫跨四個 session 的三方議事揭露:個人 IP 站不該追求 fully autonomous self-optimizing website。autoresearch 在個人 IP 場景的正確具身、是 distributed autoresearch via Chat-Cowork-Codex-Code-Paul 五方議事——我已經 implicit 在跑、只是未被命名。本文這次 reframing 流程本身就是案例。
2026 年 3 月初、Karpathy 釋出 autoresearch:一個極小型的 autonomous research loop、讓 AI agent 在 single GPU 上針對 nanochat 訓練流程做實驗。它的基本機制很直白——agent 修改訓練程式、跑一段短時間訓練、檢查結果是否變好;變好就保留、變差就丟棄。這不是一個「聊天機器人 demo」、而是一個把研究流程壓縮成自動迴圈的原型。
我在他釋出前一個月、就 implicit 在跑相似精神的東西了。不是 nanochat、是 paulkuo.tw 的「站台檔自動 mutate」:讓 LLM agent 跑一個 loop——讀 llms.txt / siteSchema.ts / mcp.json / agent-card.json / robots.txt 五個白名單檔、提一個 mutation、Cloudflare Pages 重新 build、eval-worker 跑 AI Comprehension 評分、分數有進步就 keep、退步就 revert。我以為我懂他的願景。後來證明我只懂了一半。
那段時間我在白板上寫的草圖很單純:四層評分(llms.txt / JSON-LD / MCP+A2A / AI Comprehension)+ 一個 reward function(85 分爬到 95 分)+ 一個 mutation 池(每天讓 agent 從池子裡抽一個 mutation 跑)。我看著草圖那一刻、覺得這就是 Karpathy 給社群的 v1 在我個人 IP 場景的具身——他跑模型訓練、我跑網站優化、底層精神同一個。
當時的心情我記得很清楚。那種「終於找到對的 metaphor」的篤定感、配上「自動化讓自己解放」的興奮感。我把這套東西取了個名字、叫 AI-Ready Continuous Optimization System、寫了一篇文章說 paulkuo.tw 要變成一個自己進化的網站。3 月 22 日刊出。那時候系統還在跑——雖然當時我不知道、它前一天已經跑出最後一次成功的 mutation 了。
七週後我才發現 experiments.json 已經是 0 bytes
3 月 23 日 bfacd167 commit 把 experiments.json truncate 成 0 bytes。最後一次成功 mutation 是 3 月 21 日。再之後全部 mutation_failed、prompt 超過 200k token、agent 連 reward 都拿不到。
但這套系統沒有報錯、沒有 alert、沒有 cron fail。它只是不再產生新的 experiment、安靜地坐在那邊。我以為它在跑。
5 月 12 日我終於回頭看的時候、它已經停擺七週。
治理裡最危險的缺口、從來不是大爆炸式的失敗。是這種無聲死亡——一套你以為在運作的系統、其實早就沒在運作、而你連它停下來都不知道。
但七週停擺只是症狀。當我把這件事丟回 Chat / Cowork / Codex 三邊獨立調查的時候、揭露的是另一層更上位的問題——三個盲點:自主被高估、對機器優化天花板低、對談基礎建設 ≠ 優化網站。
沒有頂級個人 IP 站在做 mutation engine
我以為 mutation engine 就是 autoresearch 的個人 IP 場景具身。但對齊行業數據之後、我發現我把兩個範式搞混了。
ALLMO 的觀察很刺眼——在它分析的被 AI 引用來源中、帶有 llms.txt 的網站比例低到幾乎可以忽略。SE Ranking 對近 300,000 個 domain 跑同樣的分析、也指向同一件事——目前看不出 llms.txt 會提高 AI citation frequency。這不是說 llms.txt 沒價值、而是說它還不是可被 reward function 直接追逐的成長槓桿。
📊 關鍵數據
- ALLMO 分析:120 個被 AI 引用網站中、帶 llms.txt 的比例低於 1%
- SE Ranking 分析:近 300,000 domains、有/無 llms.txt 對 AI citation 頻率無統計顯著差異
- paulkuo.tw mutation engine 實驗:5 檔白名單、其中 2 檔路徑寫錯(
public/llms.txt不存在、public/mcp.json實際在.well-known/)
我的判讀是、ALLMO 跟 SE Ranking 在說同一件事:llms.txt 是 hygiene、不是 moat。它可能對未來某個版本的 AI crawler 有用、但今天的 AI 系統不靠這個來決定要不要 cite 你。Google 的 John Mueller 直接把它比作「keywords meta tag」——至少當時主流 AI services 還沒承諾使用、也不容易在 server log 裡看到穩定的抓取。
更有意思的是、Mueller 把 llms.txt 類比成 keywords meta tag 之後、Google 旗下 Chrome for Developers / Lighthouse 文件又把 llms.txt 納入 agentic browsing audit、並稱它是給 LLM 與 AI agents 使用的 emerging convention;但同一份文件也明確說、沒提供 llms.txt 目前只是 N/A、不是錯誤。這代表它更像「可能會變重要的 hygiene」、而不是今天已經可驗證的 moat。個人 IP 站若把它放進 reward function、等於把一個尚未收斂的行業慣例、誤當成可優化的核心訊號。
這就是 ALLMO 報告的真正啟示:對機器優化的天花板低、且離 reward 太遠。你花一個月做完 5 檔白名單的 mutation engine、ALLMO 數據裡那 < 1% 也不會因為你多了。
Vercel v0 不是反例。範式 mismatch 才是
有人會說:Vercel v0 不就是 LLM 自動 mutate 網站嗎?產品成功了、為什麼個人 IP 站不能套?
v0 不是反例。它是 product。Vercel 在 2025 年 8 月把 v0.dev 轉成 v0.app、定位也從「產生 UI」推進到「用 agentic intelligence 研究、規劃、除錯、建置完整 app」。它的 reward signal 來自使用者是否真的把 app 做出來、部署出去、繼續付費使用——這些訊號密集、即時、可回饋。
但 product 跟個人 IP 站不是同一個範式。
個人 IP 站的 reward 是「邀請質量」「collaborator 主動聯繫密度」——稀疏、延遲、且通常 month-by-month 才能算出來。把 v0 的 mutation pattern 套到個人 IP 站、是把 product 範式套到 hygiene 場景、reward 訊號根本不夠 close the loop。
真正該對標的、是 Karpathy 在 v1 釋出後隨即在 X 上補充 的下一層方向——autoresearch 要走向多 agent、非同步、大規模協作、像 SETI@home 那樣讓許多不同探索同時發生:
The next step for autoresearch is that it has to be asynchronously massively collaborative for agents (think: SETI@home style). The goal is not to emulate a single PhD student, it’s to emulate a research community of them.
換句話說、重點不是模仿一個孤獨博士生、而是模仿一個研究社群——讓多個 agent 在不同 thread 上 explore 不同 hypothesis、然後把有效的 promote 上來。
我跑的 mutation engine、是 v1 的 single thread 範式。Karpathy 在 v1 釋出後隨即指出 v2 該往哪走——但我沒讀到那條 tweet、自己跑了一個月、然後讓它靜靜死了七週。
我已經 implicit 在跑 v2 範式了
回頭看這場 reframing 本身,我才發現一件事:本文這個結論、不是我一個人想出來的。
5 月 12 日那天、我把「AI-Ready 站台 mutation 系統要不要退役」這個問題、同時丟給三個 session:
- Chat session 從哲學角度切入、提了三身分 framing(個人 IP 站 / 工具站 / 寫作站 reward 結構不同)、引 ALLMO 跟 Mueller、寫了一份 conceptual reframing 報告
- Codex session 從工程審計角度切入、列了 13 個翻車案例 + 7 個過去也在追的淘汰範式、給了 Autonomy A0-A4 框架
- Cowork session 從本地調查角度切入、跑了 A1-A11 11 條偵察、抓到自己 5 檔白名單裡 2 檔路徑錯、發現 mcp.json
transport: client-side是 declarative 不是 executable
三方獨立、不對話、各自交報告。然後我作為 PM 收斂、Paul 拍板。整個過程從議題提出到 ADR Accepted、四個小時。
這就是 distributed autoresearch via 五方議事。這裡的 community、不是外部 1000 個 agents、而是 paulkuo.tw 內部協作模式裡的五方議事桌——Chat、Cowork、Codex、Code、Paul。
每一方都有自己的長處、也有自己的盲區。Chat 擅長概念重構與外部研究、Cowork 擅長本地偵察與檔案事實、Codex 擅長工程審計與失敗模式整理、Code 是可被驗證的狀態、Paul 則負責判斷、取捨與拍板。真正的價值不是「誰比較聰明」、而是它們彼此不共享同一個盲點——Cowork 自己永遠不會抓到 Chat 提的 ALLMO research、Chat 自己永遠不會抓到 Cowork 本地 grep 出來的「白名單 2/5 路徑錯」具體事實。
我已經在跑了。只是未被命名。Karpathy 給社群寫 v1、我給自己的五方議事桌寫 v2。
更深一層的洞察是:三身分 framing 才是七週停擺的結構真因。我的個人 IP 站、工具站(Agora Plaza / Builder’s Scorecard / claude-usage-nyan)、寫作站(84 篇四語文章)——這三個身分的 reward 結構根本不同、卻被「讓 paulkuo.tw 自進化」這個概念強行捆綁在同一個 mutation engine 底下。Category confusion。
工具站內建 product metric、適合自主迴圈。寫作站可以拆——Schema.org coverage 是 hygiene 可以自動化、品質 audit 必須 human-in-the-loop。個人 IP 站 reward 太稀疏、根本不適合自主迴圈。把三個 reward 結構不同的東西、捆綁在一個 reward function 底下、結果就是 7 週靜靜停擺、然後我以為它在跑。
回頭看 Builder’s Scorecard 那個 case 反而很有對比張力。Builder’s Scorecard 是工具站、內建 product metric(每月 evaluation 完成率、score distribution、retention)、跑自主迴圈很自然——agent 看到某個維度的分數穩定壓不上去、可以自己提 mutation 跑試驗。但同樣的範式套到 paulkuo.tw 個人 IP 站、reward 訊號就稀薄到 agent 拿不到——「這篇文章寫了之後三個月內有沒有 collaborator 主動聯繫我」這種 signal、agent 等不到、loop 自然 close 不起來。我從 SDTI(Saint Dominic Trade Institute)做循環經濟、到 CircleFlow 做 EPR 合規系統、到 paulkuo.tw 寫散文——每一個身分的 reward 結構都不同。神學訓練教我看「事物的本質」、其中一條就是「不要把不同範式的東西用同一個語言收編」。我自己破了這條戒。
七週靜靜停擺、就是這個結構性錯誤的具身。
Karpathy 寫 v1 給社群,我寫 v2 給五方議事桌
從 mutation engine 退役、不是 autoresearch 啟發退役。是載體遷移。
Karpathy 給社群寫的 autoresearch v1:single agent、single thread、single domain、Github 開源給世界跑。
我給自己的五方議事桌寫的 autoresearch v2:multi-agent、multi-thread、multi-domain、Chat-Cowork-Codex-Code-Paul 五方協作。
我把這場 reframing 寫進 ADR、把 ai-ready-opt/ 跟 .github/workflows/ai-ready-opt.yml 用 git mv 跟 git rm 退役、寫了 retired notice 標明 ADR 連結、保留 git history 讓未來想 reentry 的人有完整路徑。整個 Phase 1 是一個 atomic commit、55 個檔案動了 405 行加 225 行減。
前篇 2026 年 3 月 22 日寫的 thesis 是「可持續的優化 = 區分有效訊號與無效波動」。那篇文章的精神我沒有否定——它依然成立。但它成立的範圍、是「在已經選對範式的前提下、優化方法」。本文要說的是另一層:範式本身選錯了、再怎麼優化方法都不會收斂。
AI agents 跟 agentic AI 的演化 那篇我寫過、從任務工具到能動夥伴的差別不在技術、在 framing。今天回頭看、五方議事就是 agentic AI 在個人 IP 場景的具身。一個人跟 AI 開發即時翻譯系統 那篇紀錄的協作體驗、也是同一個範式的早期 prototype——當時我還沒意識到自己在跑 distributed autoresearch、只覺得「跟 AI 一起做事比較順」。
自主不是 mutation engine。自主是判斷力。
七週停擺不是單純的事故、而是一個治理訊號:最危險的系統、不一定是爆炸式失敗的系統、而是靜靜失效、卻讓你以為它還在運作的系統。
它提醒我:我以為自己在跑 autoresearch、其實我真正需要的、不是一個會自動改網站的 agent、而是一張能讓不同 agent 彼此校正、彼此揭盲、最後由人負責判斷的議事桌。
💬 留言討論
載入中...