TL;DR — 两个月前我把 Karpathy autoresearch 具身成「让 paulkuo.tw 站台档自动 mutate」、七周后系统静静失效。一场横跨四个 session 的三方议事揭露:个人 IP 站不该追求 fully autonomous self-optimizing website。Autoresearch 在个人 IP 场景的正确具身、是 distributed autoresearch via Chat-Cowork-Codex-Code-Paul 五方议事——我已经 implicit 在跑、只是未被命名。本文这次 reframing 流程本身就是案例。

2026 年 3 月初、Karpathy 释出 autoresearch:一个极小型的 autonomous research loop、让 AI agent 在 single GPU 上针对 nanochat 训练流程做实验。它的基本机制很直白——agent 修改训练程序、跑一段短时间训练、检查结果是否变好;变好就保留、变差就丢弃。这不是一个「聊天机器人 demo」、而是一个把研究流程压缩成自动循环的原型。

我在他释出前一个月、就 implicit 在跑相似精神的东西了。不是 nanochat、是 paulkuo.tw 的「站台档自动 mutate」:让 LLM agent 跑一个 loop——读 llms.txt / siteSchema.ts / mcp.json / agent-card.json / robots.txt 五个白名单档、提一个 mutation、Cloudflare Pages 重新 build、eval-worker 跑 AI Comprehension 评分、分数有进步就 keep、退步就 revert。我以为我懂他的愿景。后来证明我只懂了一半。

那段时间我在白板上写的草图很单纯:四层评分(llms.txt / JSON-LD / MCP+A2A / AI Comprehension)+ 一个 reward function(85 分爬到 95 分)+ 一个 mutation 池(每天让 agent 从池子里抽一个 mutation 跑)。我看着草图那一刻、觉得这就是 Karpathy 给社群的 v1 在我个人 IP 场景的具身——他跑模型训练、我跑网站优化、底层精神同一个。

当时的心情我记得很清楚。那种「终于找到对的 metaphor」的笃定感、配上「自动化让自己解放」的兴奋感。我把这套东西取了个名字、叫 AI-Ready Continuous Optimization System、写了一篇文章说 paulkuo.tw 要变成一个自己进化的网站。3 月 22 日刊出。那时候系统还在跑——虽然当时我不知道、它前一天已经跑出最后一次成功的 mutation 了。

七周后我才发现 experiments.json 已经是 0 bytes

3 月 23 日 bfacd167 commit 把 experiments.json truncate 成 0 bytes。最后一次成功 mutation 是 3 月 21 日。再之后全部 mutation_failed、prompt 超过 200k token、agent 连 reward 都拿不到。

但这套系统没有报错、没有 alert、没有 cron fail。它只是不再产生新的 experiment、安静地坐在那边。我以为它在跑。

5 月 12 日我终于回头看的时候、它已经停摆七周。

治理里最危险的缺口、从来不是大爆炸式的失败。是这种无声死亡——一套你以为在运作的系统、其实早就没在运作、而你连它停下来都不知道。

但七周停摆只是症状。当我把这件事丢回 Chat / Cowork / Codex 三边独立调查的时候、揭露的是另一层更上位的问题——三个盲点:自主被高估、对机器优化天花板低、对谈基础建设 ≠ 优化网站

没有顶级个人 IP 站在做 mutation engine

我以为 mutation engine 就是 autoresearch 的个人 IP 场景具身。但对齐行业数据之后、我发现我把两个范式搞混了。

ALLMO 的观察很刺眼——在它分析的被 AI 引用来源中、带有 llms.txt 的网站比例低到几乎可以忽略。SE Ranking 对近 300,000 个 domain 跑同样的分析、也指向同一件事——目前看不出 llms.txt 会提高 AI citation frequency。这不是说 llms.txt 没价值、而是说它还不是可被 reward function 直接追逐的成长杠杆。

📊 关键数据

  • ALLMO 分析:120 个被 AI 引用网站中、带 llms.txt 的比例低于 1%
  • SE Ranking 分析:近 300,000 domains、有/无 llms.txt 对 AI citation 频率无统计显著差异
  • paulkuo.tw mutation engine 实验:5 档白名单、其中 2 档路径写错(public/llms.txt 不存在、public/mcp.json 实际在 .well-known/

我的判读是、ALLMO 跟 SE Ranking 在说同一件事:llms.txt 是 hygiene、不是 moat。它可能对未来某个版本的 AI crawler 有用、但今天的 AI 系统不靠这个来决定要不要 cite 你。Google 的 John Mueller 直接把它比作「keywords meta tag」——至少当时主流 AI services 还没承诺使用、也不容易在 server log 里看到稳定的抓取。

更有意思的是、Mueller 把 llms.txt 类比成 keywords meta tag 之后、Google 旗下 Chrome for Developers / Lighthouse 文件又把 llms.txt 纳入 agentic browsing audit、并称它是给 LLM 与 AI agents 使用的 emerging convention;但同一份文件也明确说、没提供 llms.txt 目前只是 N/A、不是错误。这代表它更像「可能会变重要的 hygiene」、而不是今天已经可验证的 moat。个人 IP 站若把它放进 reward function、等于把一个尚未收敛的行业惯例、误当成可优化的核心讯号。

这就是 ALLMO 报告的真正启示:对机器优化的天花板低、且离 reward 太远。你花一个月做完 5 档白名单的 mutation engine、ALLMO 数据里那 < 1% 也不会因为你多了。

Vercel v0 不是反例。范式 mismatch 才是

有人会说:Vercel v0 不就是 LLM 自动 mutate 网站吗?产品成功了、为什么个人 IP 站不能套?

v0 不是反例。它是 product。Vercel 在 2025 年 8 月把 v0.dev 转成 v0.app、定位也从「产生 UI」推进到「用 agentic intelligence 研究、规划、除错、构建完整 app」。它的 reward signal 来自使用者是否真的把 app 做出来、部署出去、继续付费使用——这些讯号密集、即时、可回馈。

但 product 跟个人 IP 站不是同一个范式。

个人 IP 站的 reward 是「邀请质量」「collaborator 主动联系密度」——稀疏、延迟、且通常 month-by-month 才能算出来。把 v0 的 mutation pattern 套到个人 IP 站、是把 product 范式套到 hygiene 场景、reward 讯号根本不够 close the loop。

真正该对标的、是 Karpathy 在 v1 释出后随即在 X 上补充 的下一层方向——autoresearch 要走向多 agent、非同步、大规模协作、像 SETI@home 那样让许多不同探索同时发生:

The next step for autoresearch is that it has to be asynchronously massively collaborative for agents (think: SETI@home style). The goal is not to emulate a single PhD student, it’s to emulate a research community of them.

换句话说、重点不是模仿一个孤独博士生、而是模仿一个研究社群——让多个 agent 在不同 thread 上 explore 不同 hypothesis、然后把有效的 promote 上来。

我跑的 mutation engine、是 v1 的 single thread 范式。Karpathy 在 v1 释出后随即指出 v2 该往哪走——但我没读到那条 tweet、自己跑了一个月、然后让它静静死了七周。

我已经 implicit 在跑 v2 范式了

回头看这场 reframing 本身,我才发现一件事:本文这个结论、不是我一个人想出来的。

5 月 12 日那天、我把「AI-Ready 站台 mutation 系统要不要退役」这个问题、同时丢给三个 session:

  • Chat session 从哲学角度切入、提了三身分 framing(个人 IP 站 / 工具站 / 写作站 reward 结构不同)、引 ALLMO 跟 Mueller、写了一份 conceptual reframing 报告
  • Codex session 从工程审计角度切入、列了 13 个翻车案例 + 7 个过去也在追的淘汰范式、给了 Autonomy A0-A4 框架
  • Cowork session 从本地调查角度切入、跑了 A1-A11 11 条侦察、抓到自己 5 档白名单里 2 档路径错、发现 mcp.json transport: client-side 是 declarative 不是 executable

三方独立、不对话、各自交报告。然后我作为 PM 收敛、Paul 拍板。整个过程从议题提出到 ADR Accepted、四个小时。

这就是 distributed autoresearch via 五方议事。这里的 community、不是外部 1000 个 agents、而是 paulkuo.tw 内部协作模式里的五方议事桌——Chat、Cowork、Codex、Code、Paul。

每一方都有自己的长处、也有自己的盲区。Chat 擅长概念重构与外部研究、Cowork 擅长本地侦察与档案事实、Codex 擅长工程审计与失败模式整理、Code 是可被验证的状态、Paul 则负责判断、取舍与拍板。真正的价值不是「谁比较聪明」、而是它们彼此不共享同一个盲点——Cowork 自己永远不会抓到 Chat 提的 ALLMO research、Chat 自己永远不会抓到 Cowork 本地 grep 出来的「白名单 2/5 路径错」具体事实。

我已经在跑了。只是未被命名。Karpathy 给社群写 v1、我给自己的五方议事桌写 v2。

更深一层的洞察是:三身分 framing 才是七周停摆的结构真因。我的个人 IP 站、工具站(Agora Plaza / Builder’s Scorecard / claude-usage-nyan)、写作站(84 篇四语文章)——这三个身分的 reward 结构根本不同、却被「让 paulkuo.tw 自进化」这个概念强行捆绑在同一个 mutation engine 底下。Category confusion。

工具站内建 product metric、适合自主迴圈。写作站可以拆——Schema.org coverage 是 hygiene 可以自动化、质量 audit 必须 human-in-the-loop。个人 IP 站 reward 太稀疏、根本不适合自主迴圈。把三个 reward 结构不同的东西、捆绑在一个 reward function 底下、结果就是 7 周静静停摆、然后我以为它在跑。

回头看 Builder’s Scorecard 那个 case 反而很有对比张力。Builder’s Scorecard 是工具站、内建 product metric(每月 evaluation 完成率、score distribution、retention)、跑自主迴圈很自然——agent 看到某个维度的分数稳定压不上去、可以自己提 mutation 跑试验。但同样的范式套到 paulkuo.tw 个人 IP 站、reward 讯号就稀薄到 agent 拿不到——「这篇文章写了之后三个月内有没有 collaborator 主动联系我」这种 signal、agent 等不到、loop 自然 close 不起来。我从 SDTI(Saint Dominic Trade Institute)做循环经济、到 CircleFlow 做 EPR 合规系统、到 paulkuo.tw 写散文——每一个身分的 reward 结构都不同。神学训练教我看「事物的本质」、其中一条就是「不要把不同范式的东西用同一个语言收编」。我自己破了这条戒。

七周静静停摆、就是这个结构性错误的具身。

Karpathy 写 v1 给社群,我写 v2 给五方议事桌

从 mutation engine 退役、不是 autoresearch 启发退役。是载体迁移。

Karpathy 给社群写的 autoresearch v1:single agent、single thread、single domain、Github 开源给世界跑。

我给自己的五方议事桌写的 autoresearch v2:multi-agent、multi-thread、multi-domain、Chat-Cowork-Codex-Code-Paul 五方协作。

我把这场 reframing 写进 ADR、把 ai-ready-opt/ 跟 .github/workflows/ai-ready-opt.yml 用 git mvgit rm 退役、写了 retired notice 标明 ADR 链接、保留 git history 让未来想 reentry 的人有完整路径。整个 Phase 1 是一个 atomic commit、55 个文件动了 405 行加 225 行减。

前篇 2026 年 3 月 22 日写的 thesis 是「可持续的优化 = 区分有效讯号与无效波动」。那篇文章的精神我没有否定——它依然成立。但它成立的范围、是「在已经选对范式的前提下、优化方法」。本文要说的是另一层:范式本身选错了、再怎么优化方法都不会收敛。

AI agents 跟 agentic AI 的演化 那篇我写过、从任务工具到能动夥伴的差别不在技术、在 framing。今天回头看、五方议事就是 agentic AI 在个人 IP 场景的具身。一个人跟 AI 开发即时翻译系统 那篇记录的协作体验、也是同一个范式的早期 prototype——当时我还没意识到自己在跑 distributed autoresearch、只觉得「跟 AI 一起做事比较顺」。

自主不是 mutation engine。自主是判断力。

七周停摆不是单纯的事故、而是一个治理讯号:最危险的系统、不一定是爆炸式失败的系统、而是静静失效、却让你以为它还在运作的系统。

它提醒我:我以为自己在跑 autoresearch、其实我真正需要的、不是一个会自动改网站的 agent、而是一张能让不同 agent 彼此校正、彼此揭盲、最后由人负责判断的议事桌。