TL;DR Ultracode 把「深度推理」与「自动团队编排」绑在同一个开关。它让 AI 自行评估任务、拆解步骤,甚至复制出数十到数百个分身平行作战。当机器连「如何分工」都学会,人的价值就被推向更核心的两件事:这件事值得花算力做吗?做完的成果,凭什么算数?
前阵子我打开 Claude Code,在菜单最下方看到一个新选项:Ultracode。我顺手开启这个模式,丢进一项繁琐的代码收尾任务,接着什么也没做,静静盯着屏幕看它怎么运作。
它不像传统 AI 一拿到指令就往前冲。它先花时间比对几条分岔的版本记录,确认没有文件冲突,才沉稳选了最安全的合并路径;接着同步镜像、写好历史记录,顺手补上当天的工作日志。画面上反复跳出「almost done thinking」。整段跑完,让我在意的不是它做得多漂亮,是它做事的「形状」变了:它表现得比多数工程师还谨慎。
图说:我把一段复杂的版本收尾任务交给 Ultracode,全程没有介入。它自行比对版本、选择合并逻辑、更新镜像、补完日志。
技术表面之下:深度推理与动态分工
先厘清一件事:Ultracode 不是一颗新模型,也不是单纯让 AI「想久一点」。它是 Claude Code 的一种运作模式,2026 年 5 月底随 Opus 4.8 上线(官方说明在这里)。开启开关,系统同时转动两道齿轮:
- 极致推理强度(xhigh):迫使模型动手改代码前,先把所有潜在风险与架构边界在脑中模拟一遍。
- 自动动态编排(dynamic workflow):AI 自己评估任务规模,判断值不值得拆,再把工作分派出去。
关键在第二件事是条件式的。任务够大、能切开,它才会启动分身;若任务本质是单线(像我丢给它的版本收尾,一个 rebase 没办法切给十个代理同时做),它就老实地一步步写完。同一个开关,遇到不同问题,会自动长出不同的策略。这是我盯着屏幕时最先读到的讯号:Ultracode 开着,但它没有为了用而用。
当任务够大,AI 自己组一支代理人小队
一旦任务规模庞大,Ultracode 才展现真正的力道。它会现场写出一段脚本,在同一个 session 里拉出数十到数百个「子代理(sub-agent)」,各自啃一块代码。
更精妙的是它的验证方式:对抗式验证。一组代理从不同角度进攻问题,另一组专职反驳前面得出的结论,两派在系统内部来回攻防,直到答案收敛、挑不出漏洞为止。
这不是实验室里的理论,而是已经发生过的事。
📊 实战数据:Bun 的编程语言移植
Bun(知名的 JavaScript 执行环境)作者 Jarred Sumner 分享过一个极端案例:他用这套机制,把 Bun 核心接近百万行的代码,从 Zig 移植到 Rust。
| 项目 | 公开数据 |
|---|---|
| 工程规模 | 约 96 万行源代码、超过 6,000 个 commit |
| 开发耗时 | 从动工到合并进主线,不到 10 天 |
| 质量验证 | 几百个 AI 代理平行协作、每个文件配两位 AI 审查者,最终 99.8% 测试通过 |
这在过去,是一整支资深工程师团队耗上数个季度也不一定啃得下的工程量。现在用这套机制,十天内就跑出可合并的结果。(Sumner 也提醒,这比较像一次实验,未必会取代现有的 Zig 版本。)
我以为的核心竞争力,变成 Claude 的内建功能
看到这个功能,我的心情很复杂,因为这套「多代理协作」我自己才刚辛苦手刻过一套。
过去,其实也不过是两个月前,为了让 AI 的不同窗口能用接近团队协作的方式工作,我把流程拆成几种明确分工:Chat 负责搜索与策略判断,Cowork 负责统整与执行,Code 则负责代码与技术检测。不同环节之间,再通过文件与记忆系统同步状态,避免信息断裂、重复或冲突。
这样的分工其实是一种 harness engineering:不是只把问题丢给 AI,而是设计一套能约束、引导、分工、交接与验证 AI 的工作系统。
我曾以为这是我身为独立工作者的护城河。
Ultracode 把这条护城河直接填平。那些曾经要靠人类严密规划、手动隔离、小心切换窗口才撑得起来的高阶协作技巧,现在直接变成软件底层的一个普通按钮。这代表一件事:「手动编排 AI」的技术红利已经归零。
执行力变免费之后,什么才是稀缺的?
当工具接管最耗脑力的「分工与编排」,而且成本是开放式的(不设上限,跑到答案稳了才停),人的位置就被往后推了一格。
你不再需要思考「怎么拆解、怎么分派」,因为机器做得更快更好。这时真正考验人的,是两件无法自动化的事:
- 算力的判断:眼前这个问题的彻底程度,值不值得按下开关、放任这群代理耗掉一笔说不准的算力去算到收敛?
- 成果的品味:当几百个代理交出一份逻辑严密、架构庞大的成品,你凭什么相信它?又该怎么界定它的范围和验收标准?
验收的本质就是品味。你得自己先深刻知道什么叫「好」,才有办法在机器吐出来的成千上万行代码里,一眼看出哪里不对劲、哪些该留、哪些该砍。
我在〈人天已死〉里谈过,AI 压低执行门槛后,产出由「投入多少时间」转向「你怎么定义问题、分配任务、把关质量」,人从作业员移向项目经理。Ultracode 是这条线再往前一步:连「分配任务」这个动作,工具都开始自己做。于是手上剩下的,更纯粹是判断。它没有让我少做判断,是把判断的位置,从「执行的细节」搬到「该不该动用,以及跑完怎么信」。这两个问题没有自动化帮得上忙,因为它们本质上是价值取舍,不是运算。
结语:真正的护城河
看着 Ultracode 在屏幕上跑完那段收尾,我心里浮现的不是「人会不会被取代」,而是这样的问题:当机器开始接手编排、执行、除错,甚至能直接完成大量代码移植时,人该握在手上的能力,到底是什么?
答案恐怕不是更快的操作,也不是更熟练的执行,因为这些能力正在快速被自动化吸收。今天它能协助处理近百万行代码,明天它能接手的范围只会更大。那些过去以「执行优势」为傲的个人与团队,必须重新理解这个新的现实:纯粹执行力的重要性,会被压缩得越来越小。
但这未必是坏事。它逼我们重新区分:什么只是忙碌,什么才是有价值的能力。
我想,最后留下的是判断力与品味。
判断力,是知道什么值得做、什么不值得做;品味,是知道一件事做到什么程度,才算真正做好。这两件事不是工具升级就会自动长出来的,也不是按下一个开关就能立刻取得。它们来自真实的经验、犯过的错、看过的坏设计、做过的艰难取舍,以及长时间累积出来的分辨能力。
机器会跑得很快,也可以做得越来越多。但最后,仍然需要人来把关:这件事值得做,而且这样做是对的。那种能力才是人类的护城河。
💬 留言讨论
加载中...