人天已死：AI 协作时代，我们需要新的生产力度量衡

摘要 (TL;DR) — 人天衡量的是出席率，不是价值创造。本文提出 AI Collaboration Portfolio 五维框架（Command / Delivery / Leverage / Quality / Influence），搭配三层防伪证据架构，给企业第一套可验证的 AI 人才评估方法。附完整案例验证。→ 免费评估你的 AI 协作等级

40 分钟做完 15 人天的工作：人天还能衡量什么？

如果 40 分钟的深度思考，能创造出相当于传统 15 人天的产出，那么，我们衡量工作的方式，是否早已过时？

三个 AI 同时跑。一个分析市场数据并产出进入策略，一个根据策略重构后端架构并部署原型，一个把前两者的产出整合成一份可执行的营运计划。操作者花了大约 40 分钟：定义问题、分配任务、即时校正方向、把关最终品质。结束的时候，桌上摆着一个功能完备的产品原型、一份市场进入策略分析，以及一套自动化营运计划。

在过去，这需要跨部门五人小组协作三到四天。15 到 20 人天。

这不是常态，这是边界被推向极致后的缩影。但它预示的趋势是结构性的：当 AI 大幅压低了标准化任务的执行门槛，决定产出的不再只是投入多少时间，而是操作者如何定义问题、分配任务与把关品质。这不是要把人变不见，而是把人的角色从”作业员”提升为”策展人”。

所以，“人天”在这里到底衡量了什么？它衡量的是时间，不是价值。当度量方式落后于现实，我们衡量到的不是生产力，只是人在不在场（出席率）。

Anthropic 在 2026 年 1 月发布的 Economic Index 提供了实证基础。他们分析了超过一百万笔 Claude 对话，发现指令品质与产出品质的相关系数高达 0.92。这项数据背后的意义值得深思：在 AI 时代，“问题定义能力”已经直接等同于”最终绩效”。需要大学程度理解力的任务，AI 加速倍率是 12 倍；高中程度的只有 9 倍。

AI 不是均匀地让每个人变强，而是指数级地放大能力差距。

两个人的履历上都写着”熟悉 AI 工具”，但那可能只是同一句话，对应两种完全不同的产出能力。一个人能在周末用 AI ship 出整套全端应用，另一个人则可能只是做了多轮提问、生成大量摘要与 NotebookLM 笔记，看起来很忙，最后却没有产出真正可用的结果。问题不只是能力差距本身，而是我们直到现在，仍没有一套方式，去辨认、衡量，甚至命名这种差距。

当工时不再等于产出，企业如何重建绩效衡量框架？

1975 年，电脑科学家 Fred Brooks 出版了《人月神话》，最经典的洞见，就是拆穿了”人月”这个迷思：人数和时间从来不是可以互换的变量。每增加一个人，不只增加产能，也同步增加沟通、协调与整合的成本，而这些成本足以吞掉原本想象中的效率增益。所以，当一个项目已经落后，再往里面加人，通常不是补救，而是让它更慢。

Brooks 讲的是人类团队。但 AI 时代从反方向验证了他的论点：AI 大幅压低了标准化任务的协调门槛。不需要 onboarding，不需要对齐会议，24 小时不间断工作，几乎零切换成本。当协调成本趋近零，并行执行第一次真正变得有效率，但建立在”协调很贵”这个假设上的度量衡，就同时失去了意义。

有人试图用”注意力时长”取代人天。这个概念将人在 AI 协作中的认知投入分成四类：启动注意力（把模糊需求转译成精准指令）、监督注意力（检查 AI 产出并即时纠偏）、整合注意力（协调多个 AI 的分散输出）、孵化注意力（让无意识的后台思考沉淀并催生灵感）。

这样的分类很有帮助，但”注意力时长”本质上仍是投入端指标。它告诉我们投入了多少认知资源，却没有告诉我们这些资源实际产出了什么、品质如何，以及相较于传统做法究竟创造了多少价值。

现在的问题是：投入端有”注意力时长”，宏观端有 Anthropic Economic Index，估算 AI 对美国劳动生产力年增幅的贡献约为 1.0 个百分点；但在个人层级的产出端，也就是招聘决策发生的层级、自由工作者被评估的层级，几乎仍是一片空白。

度量衡的真空，不在边缘，而在正中央。

全球都在测 AI 素养，为什么没人测个人产出？

这个真空不是因为没人在乎。过去两年，各国政府、国际组织、学术界产出了大量的 AI 能力框架。但它们全部在解决同一个问题：你会不会用 AI？没有一个在问：你用 AI 做出了什么？

Anthropic 跟 Rick Dakan、Joseph Feller 合作开发的 AI Fluency Framework，定义了四个核心能力：委派（Delegation）、描述（Description）、辨识（Discernment）、尽责（Diligence）。这大概是目前最接近”怎样才算会用 AI”的答案。但它描述的是好的 AI 协作长什么样子，不量化它产出了什么。

Anthropic 自己的 Economic Index 从另一个角度切入，分析数百万笔真实对话来估算 AI 对劳动生产力的影响。数据极有价值，但它操作在国家经济的层级，不是你公司下一次招聘决策的层级。

美国劳工部发布了 AI Literacy Framework，英国 Turing Institute 推出了《AI Skills for Business Framework》第三版，UNESCO 有学生与教师的 AI 能力框架，学术界也提出了 Collaborative AI Literacy 与 Collaborative AI Metacognition 等量表。

框架很多，但它们回答的都是同一类问题：你是否理解 AI、能否合理使用、是否知道它的局限。换句话说，它们测的是素养，你的 AI 知识够不够。可企业真正需要知道的，是绩效：你用 AI 实际做出了什么、成果品质如何、相较于传统做法到底快了多少。

全球 AI 能力框架定位图：左下象限挤满素养型框架，右下象限（个人绩效）仍是空白

把现有的框架放到一个 2×2 矩阵上（横轴是”素养 vs 绩效”，纵轴是”个人 vs 宏观”），你会看到左边挤满了人（UNESCO、DOL、Turing、各种学术量表），右上角有 Anthropic Economic Index。右下角，也就是个人层级、基于绩效、可验证的象限，是空的。

所有人都在测 AI 素养。没有人在测个人的 AI 生产力。这篇文章提出一个框架来填这个缺口。跟我之前写的AI 时代的能力落差那篇是同一条线：那篇讲的是落差的存在，这篇讲的是怎么量化它。

AI Collaboration Portfolio 五维模型：你的团队真正缺什么人？

AI Collaboration Portfolio 是一个五维模型，衡量个人透过 AI 协作实际产出了什么。设计原则：每个维度必须有理论依据、可量化指标、以及来自第三方的可验证数据来源。

但在看指标之前，先想象你正在面试。坐在你对面的候选人说”我很会用 AI”，你要怎么判断这句话是真是假？

企业要分辨一个人是不是”真的会用 AI”，其实只需要看五件事：他能不能把 AI 指挥对（指挥力）、他到底交付了什么实质成果（交付力）、同样时间他能放大多少产能（产能乘数）、产出的成果品质撑不撑得住（品质力）、他的方法有没有被别人采用（扩散力）。

以下逐一展开。

Command 指挥力（25%）｜解决”不会问问题的人”

你的团队里有没有这种人：工具都装了，帐号都开了，但产出还是靠自己手动？问题不在工具，在指挥。Command 衡量的是：你能不能让 AI 做对的事？

Anthropic 的研究显示，指令品质与产出品质的相关性极高。换句话说，会问问题的人，AI 替他做出来的东西就是比较好。高指挥力的人不只是会下 prompt，他们建立可复用的工作流程、设计自动化管线、把模糊需求翻译成 AI 能执行的精确任务。

验证方式：可复用的工作流程与系统指令数量、自动化管线数、AI 工具整合广度、多步骤任务拆解的复杂度。

Delivery 交付力（25%）｜解决”只会空谈 AI 的人”

开会的时候很会讲 AI 趋势，但季末盘点的时候，实际 ship 了什么？Delivery 衡量的不是你试过什么，是你上线了什么。

验证方式：版本纪录的频率与量、部署中的服务或工具数、发布的内容数、从零到上线的完整项目数、代码品质指标。

Leverage 产能乘数（20%）｜解决”加人加不动”的瓶颈

这就是”40 分钟 vs. 15 人天”的核心。Leverage 直接回答企业最在乎的问题：这个人加入之后，团队的产能乘数是多少？同样的认知投入，透过 AI 协作放大了多少倍？

验证方式：实际认知投入 vs 传统估算的比值、并行项目数、AI 工具调度数量、自动化覆盖率。

Quality 品质力（15%）｜解决”量产但没品质”的风险

AI 能大量生成内容的时代，品质守门人空前重要。Anthropic 的研究发现，把任务成功率计入后，生产力提升的估算会缩减约三分之一。也就是说，有三分之一的”加速”其实是品质打折。Quality 衡量的是：你的产出经得起检验吗？

验证方式：使用者或流量数、系统稳定度、品质控制机制数（自动测试、查核流程、审查制度）、外部引用或分享次数。

Influence 扩散力（15%）｜解决”强者无法复制”的困境

一个人再强，如果方法只活在他自己脑袋里，对组织的价值就有天花板。Influence 衡量的是：你的方法有没有被别人学习或采用？这是从个人贡献者到组织赋能者的转变，也是最高槓杆的价值创造形式。

验证方式：开源项目互动数（stars, forks, contributors）、工作流程模板采用次数、教学内容触及人数、方法论被外部引用次数。

维度之间的关系

诚实地说：这五个维度不是完全独立的。高品质（Quality）常常是扩散力（Influence）的前因。一条强大的自动化管线（Leverage）本身就是一种交付（Delivery）。这五项能力并非孤立存在，而是相互赋能的价值环路。

这是设计特征，不是缺陷。真实的价值创造本来就是多维交织的。财务报表里的营收、毛利、净利也有因果关系，但我们不会因此只看一个数字，因为每个数字揭示了不同面向。五个维度是五个观察镜头，不是五个独立变量。目标是更丰富的观察，不是完美的分解。

怎么防止 Portfolio 变成刷分游戏？

任何能力框架最常被质疑的，就是它会不会沦为刷分游戏。

这个担忧完全成立。Goodhart’s Law 早就指出：当指标成为目标，它就不再是好指标。没有任何量化系统能豁免于这条规律。真正需要追问的，不是它能不能被灌水，而是灌水的成本是否够高，高到让操弄变得不划算。

AI Collaboration Portfolio 用三层证据架构来回应：

第一层：自动抓取。 使用者授权后，系统从第三方平台直接拉取数据，包括版本纪录、代码库结构、自动化流程文件、网站分析、套件下载量、社群指标。这些数据由独立平台记录，使用者无法串改。你的 GitHub 上有几个 commit 就是几个。这层是 Portfolio 的”硬证据”底线。

第二层：结构化自评。 无法自动抓取的部分（并行项目数、传统人天估算、AI 工具整合方式），用结构化表单引导填写。每个自评栏位旁边都有一个”证据链接”栏位。有附链接的标记为 Evidenced，没附的标记为 Self-reported。任何看你 Portfolio 的人都能看到这个标记，自行判断可信度。

第三层：AI 校验。 使用者授权后，AI 分析代码库结构和代码模式，独立建议各维度的分数。AI 建议分数跟使用者自评并列显示。如果你自评 90 分但 AI 建议 50 分，这个差距会被视觉化标记。

三层一起运作：自动数据不能造假、自评有透明的证据标记、AI 提供独立参照。这不是消灭灌水，是把灌水的成本拉高到不划算。

更关键的是，这个框架的终极防线不在内部验证，而在外部现实。Quality 与 Influence 两个维度所要求的证据，来自使用者控制范围之外：使用者采用率、社群互动、客户回馈、市场结果。团队内部也许可以串通刷票数，却无法强迫市场买单，也无法伪造开源社群的真实采用。

这套系统不是用来自动下判决的机器，它更像是人才评估上的”鑑识会计”：我们不再只听面试者说了多动听的故事，而是审计他留下的数字证据链，看他如何在 AI 协作中定义问题、分配任务、纠偏并达成交付。

三个最尖锐的质疑，与我们的回应

我们把这个框架丢进多模型对抗式辩论，跑了三轮压力测试。以下是最有力的三个攻击和我们的回应。

Q1：AI 可以帮人伪造整条证据链。

AI 能伪造地图，但伪造不了走过那条路的记忆。在框架引导的深度面试里，面试官追问的不是”你做了什么”，而是”你怎么做决策的”：为什么放弃那个方法？成本的权衡怎么考虑？遇到 AI 出错时怎么处理？真正做过的人可以回答三层追问。照腳本演的人，第三层就崩了。

Q2：Leverage 的基准（人天）是你自己说已经失效的东西，拿它当分母是循环论证。

Leverage 不该被解读为对照固定基线的静态倍率。它的核心价值是时间维度上的变化率，也就是你的进步速度。一个工程师 2024 年用 GPT-4 达到 10 倍槓杆，2026 年用更强的模型还是 10 倍，这本身就暴露了适应力的停滞。AI 工具在进化，基线在移动，真正有预测力的是你适应每一次典范转移的速度，而不是某一刻的绝对值。

Q3：框架聚焦个人，但 AI 时代最高价值的贡献往往是共享认知资产。

这是目前版本的真实局限。一个人建了一套 Prompt 指令库让整个部门都能用、设计了一个让所有人效率翻倍的工作流程。这种网络效应确实无法被个人维度完整捕捉。Influence 维度部分触及，但不够。团队版框架，衡量一个人如何放大整个系统的产能而不只是自己的，是下一阶段最重要的演化方向。

💡 更多质疑与回应： 关于”为什么不加适应力和伦理维度”、“维度之间的因果归因”、“作者拿自己当案例是否为幸存者偏差”等三个延伸问题，请见文末附录。

案例验证：一个人怎么同时跑八个项目？

为了验证框架的实际可操作性，我拿自己的数据跑了一遍。以下所有数据皆可公开验证。

与其逐项列分数，不如看三个最能体现框架诊断力的对比：

对比一：四语言内容系统。 我的个人网站 paulkuo.tw 已累积 80 多篇文章，每篇都提供繁中、英文、日文与简体中文四种语言版本，并由单次 commit 触发自动翻译管线生成。这不只是 Delivery（交付了多少内容），更反映了 Command（你能不能设计出让 AI 帮你做到这件事的流程）。传统做法？四个翻译、一个编辑、一个项目管理。

对比二：跨领域同时作战。 同时维护八个以上活跃项目，横跨软件开发、内容出版、电商营运、企业顾问，涵盖完全不同的领域。Timing App 的时间追踪数据整合在网站的即时仪表板上，提供实际认知投入时数。这是 Leverage（产能乘数）的直接体现：传统上，这需要五到八人团队。

对比三：最弱的维度说了什么。 我的 Influence 分数是全场最低：开源项目存在但社群互动有限，社群媒体活跃但尚未规模化，重要的演讲和外部引用几乎为零。框架的诊断价值在这里最明显：它不只是验证强项，它用令人不舒服的精确度告诉你下一步该做什么。

更关键的观察不是分数本身，是证据的性质。上面每一项宣称都可以透过公开 URL、GitHub repo、或网站分析 API 独立验证。没有任何一项只靠自我宣称。这就是这个框架跟所有问卷式评估的根本差异：证据存在于系统之外。

一个框架的设计者拿自己当案例，当然有选择偏差。但这个案例的价值不是统计上的，而是工程上的：一个完整、可检视、可复制的蓝图，任何人都能用自己的数据跑一遍。你的团队也可以。把它想成开源释出，不是临床试验。

不做 AI 生产力度量的代价：能力落差正在隐形扩大

为什么这件事重要？因为不做度量的代价，比做错度量更大。

Anthropic Economic Index 记录了一个 deskilling 效应：AI 优先接管工作中的高技能成分，留下低技能的部分。如果我们无法辨识谁真正擅长 AI 协作，高能力者会被系统性低估，而面试表现好但实际产出差的人会被高估。

生产力差距是真实的、而且在扩大。大学程度任务被 AI 加速 12 倍，高中程度只有 9 倍。这不是随时间慢慢累积的小差距，而是结构性的分歧。而且目前对劳动市场完全不可见，因为没有度量系统能把它显现出来。

这个框架也有它的边界，三个最重要的局限需要诚实面对：

个人 vs 系统价值。 框架衡量的是个人产出，但 AI 时代真正高价值的贡献，往往是共享认知资产：一套整个部门都在用的 Prompt 库、一条让所有人加速的自动化流程。如何衡量一个人对系统产能的放大效果，而不只是他自己的产出，是下一阶段最重要的延伸方向。

数字轨迹的隐私边界。 三层证据架构的第一层是自动抓取，但”自动”和”监控”之间的界线，取决于谁握有数据的控制权。如果是员工自主授权、Portfolio 归个人所有，它是赋权工具；如果是企业强制部署、主管单方面调阅，它就会变成数字监控。技术架构必须从一开始就把数据所有权锁死在个人端，否则 Portfolio 会沦为新时代的打卡机。

B2B 报价的商业现实。 框架可以改变企业内部怎么评估人才，但改变不了市场怎么买单。多数甲方的采购流程仍死死绑定”人天报价单”。你可以用 Portfolio 证明自己 40 分钟做完 15 人天的事，但甲方的系统里没有一个栏位能填这种非线性产出。企业内部的人才评估可以先行，但要让这个框架真正替代人天计价，需要整个商业生态的计价慣例一起转型。这不是一个工具能解决的问题，是一场需要时间的产业共识。

💡 更多局限讨论： 关于适应力的捕捉方式、跨组织标准化难度、公平性与可及性等议题，请见文末附录。

这些不是要掩盖的缺陷，而是下一轮迭代的研究方向。

但别忘了：我们面对的选择，不是”这个框架” vs “一个更完美的框架”，而是”有框架” vs “什么都没有”。没有框架的世界长什么样？就是现在这样：企业靠履历上的关键字筛人，靠面试时的印象决策，却完全无法分辨”会用 AI”和”能用 AI 一个人扛起整个团队”之间的巨大落差。

能被量化的，才会被重视。不能的，就会隐形。

AI Collaboration Portfolio 是一次尝试，让隐形的变得可见。它是一张不完美的地图：但替代方案不是一张更好的地图，是蒙着眼睛在新大陆上狂奔。

目前的版本针对个人使用者。企业版，支援团队仪表板、跨部门基准比较、以及招聘流程整合，是下一阶段的开发方向。如果你的组织正在思考怎么评估 AI 人才，欢迎从个人版开始体验框架的逻辑。

→ 免费评估你的 AI 协作等级：paulkuo.tw/tools/ai-collab-portfolio/

附录：更多局限讨论

适应力怎么看？ 适应力不是第六个维度，它是五个维度随时间的进步速度。一个人的指挥力、交付力、产能乘数在 AI 工具迭代之间持续提升，他就是高适应力的。框架透过分数的时间轨迹来间接捕捉这件事，未来版本可以把自我迭代速度纳为一级信号。

跨组织的标准化难度。 指挥力在软件工程师身上有版本纪录可以验证，但在行销总监或设计师身上怎么衡量？不同产业、职能、组织规模对维度的定义可能天差地别。五个维度提供了观察结构，但具体的量化指标和权重配置，必然需要依产业和职能做在地化校准。

公平性与可及性。 能取得最新 AI 工具的人，在这个框架里天然佔有优势。如果度量系统本身放大了数字落差，而非揭示真实能力，那它就失败了。

附录：更多质疑与回应

Q4：为什么不加”适应力”和”伦理力”维度？

适应力不是独立维度，而是五个维度随时间的进步速度。一个人的 Command、Delivery、Leverage 分数在 AI 工具迭代之间持续提升，他就是高适应力的。同样的逻辑适用于”反思回路”，也就是用 AI 分析和优化自身工作模式的元技能。它表现为五个维度随时间的上升轨迹，不是第六栏的静态分数。伦理是底线约束，不是绩效指标，违反伦理应该直接取消资格，而不是扣 15 分。

Q5：维度之间有因果关系，无法精确归因。

承认。框架追求的是更丰富的观察，不是数学上的精确切割。归因模糊的地方，三层证据架构提供原始数据让评估者自行判断。这正是框架的设计意图：它不取代人类判断，它给人类判断更好的材料。

Q6：作者拿自己当案例是幸存者偏差。

方法论上完全成立。一个框架的设计者当然会挑对自己有利的证据。回应不是否认偏差，而是让偏差变得结构上不重要：案例中的每一项宣称，都可以透过公开 URL、GitHub repo、或第三方分析 API 独立验证。这个案例的价值不是统计上的，而是工程上的。它提供一个完整、可检视、可复制的蓝图，任何人都能用自己的数据跑一遍。初始版本难免反映创作者的脉络，但它的价值取决于社群是否觉得值得 fork、攻击、改进。

参考文献

Brooks, F. P. (1975). The Mythical Man-Month: Essays on Software Engineering. Addison-Wesley.
Dakan, R. & Feller, J. (2025). “Framework for AI Fluency.” Ringling College of Art and Design / University College Cork. Version 1.5.
Anthropic. (2026, January). “Anthropic Economic Index report: Economic primitives.” anthropic.com/research.
Anthropic. (2026, March). “Anthropic Economic Index report: Learning curves.” anthropic.com/research.
Anthropic. (2026, March). “Estimating AI productivity gains from Claude conversations.” anthropic.com/research.
Anthropic. (2026, March). “Labor market impacts of AI: A new measure and early evidence.” anthropic.com/research.
US Department of Labor. (2026, February). “AI Literacy Framework.”
Alan Turing Institute / UK DSIT. (2025). “AI Skills for Business Competency Framework.” Version 3.
UNESCO. (2026). “AI competency framework for students.” unesdoc.unesco.org.
Schleiger, E. et al. (2025). “Generative AI in Human-AI Collaboration: Validation of the Collaborative AI Literacy and Collaborative AI Metacognition Scales.” Interacting with Computers. Taylor & Francis.
Chee, K.N. et al. (2025). “A Competency Framework for AI Literacy.” British Journal of Educational Technology. Wiley.

項目	費用 (USD)	費用 (TWD)
EN 翻譯	$1.675	$54.46
JA 翻譯	$0.149	$4.85
ZH-CN 翻譯	$0.149	$4.86
合計	$1.974	$64.17

40 分钟做完 15 人天的工作：人天还能衡量什么？

当工时不再等于产出，企业如何重建绩效衡量框架？

全球都在测 AI 素养，为什么没人测个人产出？

AI Collaboration Portfolio 五维模型：你的团队真正缺什么人？

Command 指挥力（25%）｜解决”不会问问题的人”

Delivery 交付力（25%）｜解决”只会空谈 AI 的人”

Leverage 产能乘数（20%）｜解决”加人加不动”的瓶颈

Quality 品质力（15%）｜解决”量产但没品质”的风险

Influence 扩散力（15%）｜解决”强者无法复制”的困境

维度之间的关系

怎么防止 Portfolio 变成刷分游戏？

三个最尖锐的质疑，与我们的回应

案例验证：一个人怎么同时跑八个项目？

不做 AI 生产力度量的代价：能力落差正在隐形扩大

附录：更多局限讨论

附录：更多质疑与回应

参考文献

💬 留言讨论

延伸閱讀

知识管理不靠自律，靠管线

网站访客数是零，但 Dashboard 说有 130 人

把 paulkuo.tw 变成一个自我进化的网站