個人 IP サイトにおける autoresearch の正しい具現化：サイトに機械を理解させるのではなく、Agent たちに私を理解させる

TL;DR — 二か月前、Karpathy autoresearch を「paulkuo.tw のサイト表層ファイルを自動 mutate させる」システムとして具現化しましたが、七週間後にこのシステムは静かに失効していました。四つの session を跨ぐ三者協議が明かしたのは——個人 IP サイトは fully autonomous self-optimization を追うべきではない、ということ。autoresearch の個人 IP シナリオにおける正しい具現化は、Chat-Cowork-Codex-Code-Paul 五者協議による distributed autoresearch であり、私はずっとそれを implicit に走らせていただけで、まだ名づけていなかったのです。本記事の執筆プロセスそのものが、その事例の一つです。

2026 年 3 月初め、Karpathy は autoresearch を公開しました——AI agent に single-GPU 上の nanochat training プロセスで実験を行わせる、極小型の autonomous research loop です。仕組みは至ってシンプル——agent が training script を書き換え、短時間の training を回し、結果が改善されたかを確認し、改善されれば残す、悪化すれば破棄する。これは「チャットボット demo」ではなく、研究プロセスを自動 loop に圧縮した prototype です。

私はそのリリースの一か月前から、似たような精神のものを implicit に走らせていました。nanochat ではなく、paulkuo.tw の「サイト表層自動 mutate」——LLM agent に loop を回させ、ホワイトリストの五ファイル（llms.txt / siteSchema.ts / mcp.json / agent-card.json / robots.txt）を読み、mutation を一つ提案し、Cloudflare Pages を rebuild させ、eval-worker で AI Comprehension を採点し、点数が上がれば keep、下がれば revert。Karpathy の vision を理解したつもりでした。実際には半分しか分かっていませんでした。

当時ホワイトボードに描いた草案はシンプルでした：四層採点（llms.txt / JSON-LD / MCP+A2A / AI Comprehension） + reward function（85 点から 95 点へ） + mutation pool（毎日 agent が pool から一つ抽いて回す）。それを見ながら、「これこそが Karpathy の v1 を個人 IP シナリオに具現化したものだ」と確信しました——彼はモデル training を回す、私はサイト最適化を回す、根底の精神は同じだと。

あの時の感覚は今もはっきり覚えています。「やっと正しい metaphor を見つけた」という確信と、「自動化が自分を解放する」という高揚感。このシステムに名前をつけ、AI-Ready Continuous Optimization System と呼び、paulkuo.tw が自分自身を進化させるサイトになるという記事を書きました。3-22 に公開。そのときシステムはまだ動いていた——もっとも、前日が最後の成功 mutation だったことを、私は知りませんでした。

七週間後、experiments.json が 0 bytes だったことに気づく

3-23 の commit bfacd167 で experiments.json は 0 bytes に truncate されていました。最後に成功した mutation は 3-21。それ以降はすべて mutation_failed——prompt が 200k token を超え、agent は reward すら取れない状態。

しかしこのシステムはエラーを出さず、alert もなく、cron fail もありませんでした。ただ新しい experiment を生み出さなくなり、そこに静かに座っていただけ。動いていると思っていました。

5-12 に振り返ったとき、すでに七週間が経過していました。

ガバナンスにおいて最も危険な gap は、派手な失敗ではありません。この種の silent death——動いていると信じているシステムが、実はとっくに動かなくなっており、止まったことにすら気づいていない、という状況です。

しかし七週間の停滞は症状にすぎません。この問いを Chat / Cowork / Codex 三方向に独立調査として投げたとき、明らかになったのはもう一段上の構造的問題——三つの盲点：自律は過大評価されている、機械側最適化の天井は低い、対話のインフラ ≠ サイトの最適化。

トップティアの個人 IP サイトは mutation engine を回していない

mutation engine こそが autoresearch の個人 IP 場面における具現化だ、と私は思っていました。業界データに照らすと、二つの paradigm を混同していたことに気づきました。

ALLMO の観察は鋭い——AI に引用された情報源の中で、llms.txt を持つサイトの割合は無視できるほど低い。SE Ranking が 300,000 近い domain で同じ分析を行った結果も同じ方向——現時点で llms.txt が AI citation frequency を高めるという統計的傾向は見られない。これは llms.txt に価値がないという意味ではなく、reward function が直接追える成長レバーにはまだなっていない、ということです。

📊 主要データ

ALLMO 分析：AI に引用された 120 サイトのうち、llms.txt 保有率は 1% 未満

SE Ranking 分析：300,000 近い domain、llms.txt の有無で AI citation 頻度に統計的有意差なし

paulkuo.tw mutation engine 実験：ホワイトリスト 5 ファイル、うち 2 ファイルの path が誤り（public/llms.txt は存在せず、public/mcp.json は実際には .well-known/ 配下）

私の読みでは、ALLMO と SE Ranking は同じことを言っています——llms.txt は hygiene であり moat ではない。未来のある version の AI crawler には有用かもしれませんが、今日の AI システムはこれに基づいて citation するかを決めてはいません。Google の John Mueller は直接「keywords meta tag に等しい」と表現しました——少なくとも当時、主要な AI service はこれを使うと明言しておらず、server log で安定した抓取も確認できない、という意味です。

さらに興味深いのは、Mueller が llms.txt を keywords meta tag になぞらえた後、Google 傘下の Chrome for Developers / Lighthouse のドキュメントが llms.txt を agentic browsing audit に組み込み、LLM や AI agent 向けの emerging convention と位置づけた点です——同時に、llms.txt を提供しないことは現状 N/A であり error ではない、とも明示されています。つまりこれは「将来重要になるかもしれない hygiene」であって、今日すでに検証可能な moat ではない。個人 IP サイトがこれを reward function に組み込むのは、まだ収斂していない業界慣例を、最適化すべき核心 signal と誤認することに等しいのです。

これが ALLMO レポートの本当の示唆です：機械側最適化の天井は低く、reward から遠すぎる。一か月かけて 5 ファイル mutation engine を作っても、ALLMO データの中の < 1% は、あなたのせいで変わったりはしないのです。

Vercel v0 は反例ではない。Paradigm mismatch こそが核心

Vercel v0 こそが LLM 自動 mutate website では？プロダクトは成功している。なぜ個人 IP サイトには適用できないのか？——そう問う方もいるかもしれません。

v0 は反例ではありません。それは product です。Vercel は 2025 年 8 月に v0.dev を v0.app に転換し、「UI を生成する」から「agentic intelligence で研究・計画・debug・完全な app を構築する」へとポジショニングを進めました。v0 の reward signal は、ユーザーが実際に app を作り、deploy し、課金を続けるかどうかから来る——これらの signal は密度が高く、即時的で、loop を close できます。

しかし product と個人 IP サイトは同じ paradigm ではありません。

個人 IP サイトの reward は「招待の質」「collaborator から自発的に連絡が来る密度」——疎で、遅延し、通常は月単位でしか算出できません。v0 の mutation pattern を個人 IP サイトに持ち込むのは、product paradigm を hygiene シナリオに被せる試みで、reward signal が loop を close するほど密ではないのです。

本来 benchmarking すべきだったのは、Karpathy が v1 リリース後ほどなく X 上で補足した次のレベルの方向性——autoresearch は multi-agent、非同期、大規模協働、SETI@home のように多数の異なる探索を同時並行で走らせるべきだ、というものでした：

The next step for autoresearch is that it has to be asynchronously massively collaborative for agents (think: SETI@home style). The goal is not to emulate a single PhD student, it’s to emulate a research community of them.

つまり、模倣すべきは孤独な博士課程の学生ではなく、研究コミュニティそのもの——複数の agent が異なる thread で異なる hypothesis を explore し、有効なものを上位に promote する、SETI@home スタイルのアーキテクチャです。

私が回していたのは v1 の single-thread paradigm。Karpathy は v1 リリース後ほどなく v2 の方向を示してくれた——しかし私はその tweet を読まず、自分の loop を一か月回し、その後七週間静かに死なせていたのです。

私はすでに implicit に v2 を走らせていた

この reframing 自体を振り返ったとき、気づいたことがあります：本記事の結論は、一人で考え出したものではない。

5-12 のあの日、「AI-Ready サイト mutation システムを退役させるべきか」という問いを、私は同時に三つの session に投げました：

Chat session は哲学的角度から——三身分 framing（個人 IP / ツールサイト / 執筆サイトで reward 構造が異なる）を提案し、ALLMO と Mueller を引用し、conceptual reframing report を書いた。
Codex session は工学監査の角度から——13 個の cautionary tale + 過去にも追っていた 7 個の deprecated paradigm をリストし、Autonomy A0-A4 framework を提供した。
Cowork session はローカル調査の角度から——A1-A11 の 11 件の偵察を回し、自身のホワイトリスト 5 ファイル中 2 ファイルの path が間違っていることを発見、mcp.json transport: client-side が declarative であり executable ではないことを明らかにした。

三方独立、対話なし、各自レポート提出。その後私が PM として収斂、Paul が最終判断。問題提起から ADR Accepted までの全工程は四時間。

これが distributed autoresearch via 五者協議です。ここでいう community は外部の 1000 agent ではなく、paulkuo.tw 内部の五者協議卓——Chat、Cowork、Codex、Code、Paul です。

各自が独自の強みと盲点を持っています。Chat は概念再構築と外部リサーチに長け、Cowork はローカル偵察とファイル事実に長け、Codex は工学監査と失敗パターン整理に長け、Code は検証可能な状態そのもの、Paul は判断・取捨・最終決定を担う。本当の価値は「誰が賢いか」ではなく、彼らが同じ盲点を共有していないという点にあります——Cowork 単独では Chat が出した ALLMO research には辿り着けず、Chat 単独では Cowork がローカル grep で抽出した「ホワイトリスト 2/5 path 誤り」という具体事実には辿り着けません。

私はずっとそれを走らせていた。ただ名づけていなかった。Karpathy は community に向けて v1 を書いた、私は自分の五者協議卓に向けて v2 を書く。

より深い洞察は——三身分 framing こそが七週間停滞の構造的真因である、ということ。個人 IP サイト、ツールサイト（Agora Plaza / Builder’s Scorecard / claude-usage-nyan）、執筆サイト（84 篇の四言語記事）——この三身分の reward 構造は根本的に異なるのに、「paulkuo.tw を自進化させる」という概念のもとに同一の mutation engine に強引にバンドルされていた。Category confusion。

ツールサイトは product metric を内蔵し、自律 loop に適する。執筆サイトは分割できる——Schema.org coverage は hygiene なので自動化可能、品質 audit は human-in-the-loop が必須。個人 IP サイトの reward は疎すぎて、自律 loop には根本的に向かない。reward 構造の異なる三つを一つの reward function にバンドルした結果——七週間の静かな停滞、そして私はそれが動いていると思っていた。

振り返ると Builder’s Scorecard のケースには対照的な張力があります。Builder’s Scorecard はツールサイトで、product metric を内蔵（月次 evaluation 完了率、score 分布、retention）——自律 loop が自然に回る。agent はある次元のスコアがしばらく上がらないのを見て、自ら mutation 実験を提案できます。しかし同じ paradigm を paulkuo.tw 個人 IP サイトに適用すると、reward signal が agent には受け取れないほど薄い——「この記事を書いて三か月以内に collaborator から連絡が来るか」という signal は、agent が待っても受け取れず、loop が自然に close しません。SDTI（Saint Dominic Trade Institute）で循環経済をやり、CircleFlow で EPR コンプライアンス system をやり、paulkuo.tw でエッセイを書く——どの身分も reward 構造が違います。神学訓練が私に「物事の本質を見よ」と教えたうちの一つに「異なる paradigm のものを同じ言葉で収めるな」がある。私は自分でその戒めを破ったのです。

七週間の静かな停滞は、その構造的誤りの具現化でした。

Karpathy は community に向けて v1 を書いた。私は五者協議卓に向けて v2 を書く

mutation engine の退役は、autoresearch の啓発の退役ではありません。載体の遷移です。

Karpathy が community に向けて書いた autoresearch v1：single agent、single thread、single domain、GitHub で世界に向けてオープン。

私が五者協議卓に向けて書く autoresearch v2：multi-agent、multi-thread、multi-domain、Chat-Cowork-Codex-Code-Paul の協働。

この reframing を ADR に書き込み、git mv と git rm で ai-ready-opt/ と .github/workflows/ai-ready-opt.yml を退役させ、retired notice を書いて ADR link を明示し、git history を保持して将来 reentry したい人のために完全な path を残しました。Phase 1 全体は単一の atomic commit——55 ファイル、+405 / -225 行。

前篇 2026 年 3 月 22 日の thesis は「持続的最適化 = 有効 signal と無効 noise を区別する」でした。あの記事の精神は否定していません——今も成立します。ただし成立する範囲は「正しい paradigm を選んだ前提で、方法を最適化する」場合。本記事が言いたいのはもう一段上——paradigm 自体が誤っていれば、方法をいくら最適化しても収束しません。

AI Agents と Agentic AI の進化を書いたとき、task tool から能動的パートナーへの進化は技術ではなく framing にある、と述べました。振り返ってみれば、五者協議こそが個人 IP シナリオにおける agentic AI の具現化です。一人 × AI でリアルタイム翻訳システムを開発した記録が記録した協働体験も、同じ paradigm の初期 prototype——当時は自分が distributed autoresearch を走らせているとは気づかず、「AI と一緒に仕事するとスムーズだ」と感じていただけでした。

自律は mutation engine ではない。自律とは判断力である。

七週間の停滞は単なる事故ではなく、ガバナンスの signal です——最も危険なシステムは派手に失敗するシステムではなく、静かに失効していながらあなたに「まだ動いている」と思わせるシステムだ、ということ。

それは私に告げました——自分は autoresearch を走らせていると思っていたが、本当に必要だったのは、自動でサイトを書き換える agent ではなく、異なる agent が互いに校正し、互いの盲点を晒し、最終的に人間が判断を下す協議卓だったのだ、と。

七週間後、experiments.json が 0 bytes だったことに気づく

トップティアの個人 IP サイトは mutation engine を回していない

Vercel v0 は反例ではない。Paradigm mismatch こそが核心

私はすでに implicit に v2 を走らせていた

Karpathy は community に向けて v1 を書いた。私は五者協議卓に向けて v2 を書く

💬 コメント

関連記事

なぜ台湾はフェーズ II を終えた一部の細胞療法に『先に条件付き上市し、後から検証データを補う』ことを認められるのか

ウィンドウを切り替えずに画像生成：Claude Code から Codex CLI で OpenAI Image-2 を呼ぶ

台湾NHIのデータを英語や日本語で探すのは、どれほど大変か