Ultracode：当 AI 可以带 coding 团队，人还剩下什么？

TL;DR Ultracode 把「深度推理」与「自动团队编排」绑在同一个开关。它让 AI 自行评估任务、拆解步骤，甚至复制出数十到数百个分身平行作战。当机器连「如何分工」都学会，人的价值就被推向更核心的两件事：这件事值得花算力做吗？做完的成果，凭什么算数？

前阵子我打开 Claude Code，在菜单最下方看到一个新选项：Ultracode。我顺手开启这个模式，丢进一项繁琐的代码收尾任务，接着什么也没做，静静盯着屏幕看它怎么运作。

它不像传统 AI 一拿到指令就往前冲。它先花时间比对几条分岔的版本记录，确认没有文件冲突，才沉稳选了最安全的合并路径；接着同步镜像、写好历史记录，顺手补上当天的工作日志。画面上反复跳出「almost done thinking」。整段跑完，让我在意的不是它做得多漂亮，是它做事的「形状」变了：它表现得比多数工程师还谨慎。

图说：我把一段复杂的版本收尾任务交给 Ultracode，全程没有介入。它自行比对版本、选择合并逻辑、更新镜像、补完日志。

技术表面之下：深度推理与动态分工

先厘清一件事：Ultracode 不是一颗新模型，也不是单纯让 AI「想久一点」。它是 Claude Code 的一种运作模式，2026 年 5 月底随 Opus 4.8 上线（官方说明在这里）。开启开关，系统同时转动两道齿轮：

极致推理强度（xhigh）：迫使模型动手改代码前，先把所有潜在风险与架构边界在脑中模拟一遍。
自动动态编排（dynamic workflow）：AI 自己评估任务规模，判断值不值得拆，再把工作分派出去。

关键在第二件事是条件式的。任务够大、能切开，它才会启动分身；若任务本质是单线（像我丢给它的版本收尾，一个 rebase 没办法切给十个代理同时做），它就老实地一步步写完。同一个开关，遇到不同问题，会自动长出不同的策略。这是我盯着屏幕时最先读到的讯号：Ultracode 开着，但它没有为了用而用。

当任务够大，AI 自己组一支代理人小队

一旦任务规模庞大，Ultracode 才展现真正的力道。它会现场写出一段脚本，在同一个 session 里拉出数十到数百个「子代理（sub-agent）」，各自啃一块代码。

更精妙的是它的验证方式：对抗式验证。一组代理从不同角度进攻问题，另一组专职反驳前面得出的结论，两派在系统内部来回攻防，直到答案收敛、挑不出漏洞为止。

这不是实验室里的理论，而是已经发生过的事。

📊 实战数据：Bun 的编程语言移植

Bun（知名的 JavaScript 执行环境）作者 Jarred Sumner 分享过一个极端案例：他用这套机制，把 Bun 核心接近百万行的代码，从 Zig 移植到 Rust。

项目	公开数据
工程规模	约 96 万行源代码、超过 6,000 个 commit
开发耗时	从动工到合并进主线，不到 10 天
质量验证	几百个 AI 代理平行协作、每个文件配两位 AI 审查者，最终 99.8% 测试通过

这在过去，是一整支资深工程师团队耗上数个季度也不一定啃得下的工程量。现在用这套机制，十天内就跑出可合并的结果。（Sumner 也提醒，这比较像一次实验，未必会取代现有的 Zig 版本。）

我以为的核心竞争力，变成 Claude 的内建功能

看到这个功能，我的心情很复杂，因为这套「多代理协作」我自己才刚辛苦手刻过一套。

过去，其实也不过是两个月前，为了让 AI 的不同窗口能用接近团队协作的方式工作，我把流程拆成几种明确分工：Chat 负责搜索与策略判断，Cowork 负责统整与执行，Code 则负责代码与技术检测。不同环节之间，再通过文件与记忆系统同步状态，避免信息断裂、重复或冲突。

这样的分工其实是一种 harness engineering：不是只把问题丢给 AI，而是设计一套能约束、引导、分工、交接与验证 AI 的工作系统。

我曾以为这是我身为独立工作者的护城河。

Ultracode 把这条护城河直接填平。那些曾经要靠人类严密规划、手动隔离、小心切换窗口才撑得起来的高阶协作技巧，现在直接变成软件底层的一个普通按钮。这代表一件事：「手动编排 AI」的技术红利已经归零。

执行力变免费之后，什么才是稀缺的？

当工具接管最耗脑力的「分工与编排」，而且成本是开放式的（不设上限，跑到答案稳了才停），人的位置就被往后推了一格。

你不再需要思考「怎么拆解、怎么分派」，因为机器做得更快更好。这时真正考验人的，是两件无法自动化的事：

算力的判断：眼前这个问题的彻底程度，值不值得按下开关、放任这群代理耗掉一笔说不准的算力去算到收敛？
成果的品味：当几百个代理交出一份逻辑严密、架构庞大的成品，你凭什么相信它？又该怎么界定它的范围和验收标准？

验收的本质就是品味。你得自己先深刻知道什么叫「好」，才有办法在机器吐出来的成千上万行代码里，一眼看出哪里不对劲、哪些该留、哪些该砍。

我在〈人天已死〉里谈过，AI 压低执行门槛后，产出由「投入多少时间」转向「你怎么定义问题、分配任务、把关质量」，人从作业员移向项目经理。Ultracode 是这条线再往前一步：连「分配任务」这个动作，工具都开始自己做。于是手上剩下的，更纯粹是判断。它没有让我少做判断，是把判断的位置，从「执行的细节」搬到「该不该动用，以及跑完怎么信」。这两个问题没有自动化帮得上忙，因为它们本质上是价值取舍，不是运算。

结语：真正的护城河

看着 Ultracode 在屏幕上跑完那段收尾，我心里浮现的不是「人会不会被取代」，而是这样的问题：当机器开始接手编排、执行、除错，甚至能直接完成大量代码移植时，人该握在手上的能力，到底是什么？

答案恐怕不是更快的操作，也不是更熟练的执行，因为这些能力正在快速被自动化吸收。今天它能协助处理近百万行代码，明天它能接手的范围只会更大。那些过去以「执行优势」为傲的个人与团队，必须重新理解这个新的现实：纯粹执行力的重要性，会被压缩得越来越小。

但这未必是坏事。它逼我们重新区分：什么只是忙碌，什么才是有价值的能力。

我想，最后留下的是判断力与品味。

判断力，是知道什么值得做、什么不值得做；品味，是知道一件事做到什么程度，才算真正做好。这两件事不是工具升级就会自动长出来的，也不是按下一个开关就能立刻取得。它们来自真实的经验、犯过的错、看过的坏设计、做过的艰难取舍，以及长时间累积出来的分辨能力。

机器会跑得很快，也可以做得越来越多。但最后，仍然需要人来把关：这件事值得做，而且这样做是对的。那种能力才是人类的护城河。

項目	費用 (USD)	費用 (TWD)
EN 翻譯	$0.055	$1.78
JA 翻譯	$0.083	$2.70
ZH-CN 翻譯	$0.068	$2.22
封面圖	$0.211	$6.86
合計	$0.417	$13.56

技术表面之下：深度推理与动态分工

当任务够大，AI 自己组一支代理人小队

📊 实战数据：Bun 的编程语言移植

我以为的核心竞争力，变成 Claude 的内建功能

执行力变免费之后，什么才是稀缺的？

结语：真正的护城河

💬 留言讨论

延伸閱讀

Claude Design 更新后，我用一个指令把网站设计系统喂进 AI——难的不是下指令，是看懂它要动哪里

三个 Claude，一个回圈：我如何把设计探索接到实作上线

Claude Fable 5：AI 工作系统进入长任务时代