摘要 (TL;DR) — 人天衡量的是出席率,不是价值创造。本文提出 AI Collaboration Portfolio 五维框架(Command / Delivery / Leverage / Quality / Influence),搭配三层防伪证据架构,给企业第一套可验证的 AI 人才评估方法。附完整案例验证。→ 免费评估你的 AI 协作等级
40 分钟做完 15 人天的工作:人天还能衡量什么?
如果 40 分钟的深度思考,能创造出相当于传统 15 人天的产出,那么,我们衡量工作的方式,是否早已过时?
三个 AI 同时跑。一个分析市场数据并产出进入策略,一个根据策略重构后端架构并部署原型,一个把前两者的产出整合成一份可执行的营运计划。操作者花了大约 40 分钟:定义问题、分配任务、即时校正方向、把关最终品质。结束的时候,桌上摆着一个功能完备的产品原型、一份市场进入策略分析,以及一套自动化营运计划。
在过去,这需要跨部门五人小组协作三到四天。15 到 20 人天。
这不是常态,这是边界被推向极致后的缩影。但它预示的趋势是结构性的:当 AI 大幅压低了标准化任务的执行门槛,决定产出的不再只是投入多少时间,而是操作者如何定义问题、分配任务与把关品质。这不是要把人变不见,而是把人的角色从”作业员”提升为”策展人”。
所以,“人天”在这里到底衡量了什么?它衡量的是时间,不是价值。当度量方式落后于现实,我们衡量到的不是生产力,只是人在不在场(出席率)。
Anthropic 在 2026 年 1 月发布的 Economic Index 提供了实证基础。他们分析了超过一百万笔 Claude 对话,发现指令品质与产出品质的相关系数高达 0.92。这项数据背后的意义值得深思:在 AI 时代,“问题定义能力”已经直接等同于”最终绩效”。需要大学程度理解力的任务,AI 加速倍率是 12 倍;高中程度的只有 9 倍。
AI 不是均匀地让每个人变强,而是指数级地放大能力差距。
两个人的履历上都写着”熟悉 AI 工具”,但那可能只是同一句话,对应两种完全不同的产出能力。 一个人能在周末用 AI ship 出整套全端应用,另一个人则可能只是做了多轮提问、生成大量摘要与 NotebookLM 笔记,看起来很忙,最后却没有产出真正可用的结果。 问题不只是能力差距本身,而是我们直到现在,仍没有一套方式,去辨认、衡量,甚至命名这种差距。
当工时不再等于产出,企业如何重建绩效衡量框架?
1975 年,电脑科学家 Fred Brooks 出版了《人月神话》,最经典的洞见,就是拆穿了”人月”这个迷思:人数和时间从来不是可以互换的变量。每增加一个人,不只增加产能,也同步增加沟通、协调与整合的成本,而这些成本足以吞掉原本想象中的效率增益。所以,当一个项目已经落后,再往里面加人,通常不是补救,而是让它更慢。
Brooks 讲的是人类团队。但 AI 时代从反方向验证了他的论点:AI 大幅压低了标准化任务的协调门槛。不需要 onboarding,不需要对齐会议,24 小时不间断工作,几乎零切换成本。当协调成本趋近零,并行执行第一次真正变得有效率,但建立在”协调很贵”这个假设上的度量衡,就同时失去了意义。
有人试图用”注意力时长”取代人天。这个概念将人在 AI 协作中的认知投入分成四类:启动注意力(把模糊需求转译成精准指令)、监督注意力(检查 AI 产出并即时纠偏)、整合注意力(协调多个 AI 的分散输出)、孵化注意力(让无意识的后台思考沉淀并催生灵感)。
这样的分类很有帮助,但”注意力时长”本质上仍是投入端指标。它告诉我们投入了多少认知资源,却没有告诉我们这些资源实际产出了什么、品质如何,以及相较于传统做法究竟创造了多少价值。
现在的问题是:投入端有”注意力时长”,宏观端有 Anthropic Economic Index,估算 AI 对美国劳动生产力年增幅的贡献约为 1.0 个百分点;但在个人层级的产出端,也就是招聘决策发生的层级、自由工作者被评估的层级,几乎仍是一片空白。
度量衡的真空,不在边缘,而在正中央。
全球都在测 AI 素养,为什么没人测个人产出?
这个真空不是因为没人在乎。过去两年,各国政府、国际组织、学术界产出了大量的 AI 能力框架。但它们全部在解决同一个问题:你会不会用 AI?没有一个在问:你用 AI 做出了什么?
Anthropic 跟 Rick Dakan、Joseph Feller 合作开发的 AI Fluency Framework,定义了四个核心能力:委派(Delegation)、描述(Description)、辨识(Discernment)、尽责(Diligence)。这大概是目前最接近”怎样才算会用 AI”的答案。但它描述的是好的 AI 协作长什么样子,不量化它产出了什么。
Anthropic 自己的 Economic Index 从另一个角度切入,分析数百万笔真实对话来估算 AI 对劳动生产力的影响。数据极有价值,但它操作在国家经济的层级,不是你公司下一次招聘决策的层级。
美国劳工部发布了 AI Literacy Framework,英国 Turing Institute 推出了《AI Skills for Business Framework》第三版,UNESCO 有学生与教师的 AI 能力框架,学术界也提出了 Collaborative AI Literacy 与 Collaborative AI Metacognition 等量表。
框架很多,但它们回答的都是同一类问题:你是否理解 AI、能否合理使用、是否知道它的局限。换句话说,它们测的是素养,你的 AI 知识够不够。可企业真正需要知道的,是绩效:你用 AI 实际做出了什么、成果品质如何、相较于传统做法到底快了多少。
把现有的框架放到一个 2×2 矩阵上(横轴是”素养 vs 绩效”,纵轴是”个人 vs 宏观”),你会看到左边挤满了人(UNESCO、DOL、Turing、各种学术量表),右上角有 Anthropic Economic Index。右下角,也就是个人层级、基于绩效、可验证的象限,是空的。
所有人都在测 AI 素养。没有人在测个人的 AI 生产力。这篇文章提出一个框架来填这个缺口。跟我之前写的AI 时代的能力落差那篇是同一条线:那篇讲的是落差的存在,这篇讲的是怎么量化它。
AI Collaboration Portfolio 五维模型:你的团队真正缺什么人?
AI Collaboration Portfolio 是一个五维模型,衡量个人透过 AI 协作实际产出了什么。设计原则:每个维度必须有理论依据、可量化指标、以及来自第三方的可验证数据来源。
但在看指标之前,先想象你正在面试。坐在你对面的候选人说”我很会用 AI”,你要怎么判断这句话是真是假?
企业要分辨一个人是不是”真的会用 AI”,其实只需要看五件事:他能不能把 AI 指挥对(指挥力)、他到底交付了什么实质成果(交付力)、同样时间他能放大多少产能(产能乘数)、产出的成果品质撑不撑得住(品质力)、他的方法有没有被别人采用(扩散力)。
以下逐一展开。
Command 指挥力(25%)|解决”不会问问题的人”
你的团队里有没有这种人:工具都装了,帐号都开了,但产出还是靠自己手动?问题不在工具,在指挥。Command 衡量的是:你能不能让 AI 做对的事?
Anthropic 的研究显示,指令品质与产出品质的相关性极高。换句话说,会问问题的人,AI 替他做出来的东西就是比较好。高指挥力的人不只是会下 prompt,他们建立可复用的工作流程、设计自动化管线、把模糊需求翻译成 AI 能执行的精确任务。
验证方式:可复用的工作流程与系统指令数量、自动化管线数、AI 工具整合广度、多步骤任务拆解的复杂度。
Delivery 交付力(25%)|解决”只会空谈 AI 的人”
开会的时候很会讲 AI 趋势,但季末盘点的时候,实际 ship 了什么?Delivery 衡量的不是你试过什么,是你上线了什么。
验证方式:版本纪录的频率与量、部署中的服务或工具数、发布的内容数、从零到上线的完整项目数、代码品质指标。
Leverage 产能乘数(20%)|解决”加人加不动”的瓶颈
这就是”40 分钟 vs. 15 人天”的核心。Leverage 直接回答企业最在乎的问题:这个人加入之后,团队的产能乘数是多少?同样的认知投入,透过 AI 协作放大了多少倍?
验证方式:实际认知投入 vs 传统估算的比值、并行项目数、AI 工具调度数量、自动化覆盖率。
Quality 品质力(15%)|解决”量产但没品质”的风险
AI 能大量生成内容的时代,品质守门人空前重要。Anthropic 的研究发现,把任务成功率计入后,生产力提升的估算会缩减约三分之一。也就是说,有三分之一的”加速”其实是品质打折。Quality 衡量的是:你的产出经得起检验吗?
验证方式:使用者或流量数、系统稳定度、品质控制机制数(自动测试、查核流程、审查制度)、外部引用或分享次数。
Influence 扩散力(15%)|解决”强者无法复制”的困境
一个人再强,如果方法只活在他自己脑袋里,对组织的价值就有天花板。Influence 衡量的是:你的方法有没有被别人学习或采用?这是从个人贡献者到组织赋能者的转变,也是最高槓杆的价值创造形式。
验证方式:开源项目互动数(stars, forks, contributors)、工作流程模板采用次数、教学内容触及人数、方法论被外部引用次数。
维度之间的关系
诚实地说:这五个维度不是完全独立的。高品质(Quality)常常是扩散力(Influence)的前因。一条强大的自动化管线(Leverage)本身就是一种交付(Delivery)。这五项能力并非孤立存在,而是相互赋能的价值环路。
这是设计特征,不是缺陷。真实的价值创造本来就是多维交织的。财务报表里的营收、毛利、净利也有因果关系,但我们不会因此只看一个数字,因为每个数字揭示了不同面向。五个维度是五个观察镜头,不是五个独立变量。目标是更丰富的观察,不是完美的分解。
怎么防止 Portfolio 变成刷分游戏?
任何能力框架最常被质疑的,就是它会不会沦为刷分游戏。
这个担忧完全成立。Goodhart’s Law 早就指出:当指标成为目标,它就不再是好指标。没有任何量化系统能豁免于这条规律。真正需要追问的,不是它能不能被灌水,而是灌水的成本是否够高,高到让操弄变得不划算。
AI Collaboration Portfolio 用三层证据架构来回应:
第一层:自动抓取。 使用者授权后,系统从第三方平台直接拉取数据,包括版本纪录、代码库结构、自动化流程文件、网站分析、套件下载量、社群指标。这些数据由独立平台记录,使用者无法串改。你的 GitHub 上有几个 commit 就是几个。这层是 Portfolio 的”硬证据”底线。
第二层:结构化自评。 无法自动抓取的部分(并行项目数、传统人天估算、AI 工具整合方式),用结构化表单引导填写。每个自评栏位旁边都有一个”证据链接”栏位。有附链接的标记为 Evidenced,没附的标记为 Self-reported。任何看你 Portfolio 的人都能看到这个标记,自行判断可信度。
第三层:AI 校验。 使用者授权后,AI 分析代码库结构和代码模式,独立建议各维度的分数。AI 建议分数跟使用者自评并列显示。如果你自评 90 分但 AI 建议 50 分,这个差距会被视觉化标记。
三层一起运作:自动数据不能造假、自评有透明的证据标记、AI 提供独立参照。这不是消灭灌水,是把灌水的成本拉高到不划算。
更关键的是,这个框架的终极防线不在内部验证,而在外部现实。Quality 与 Influence 两个维度所要求的证据,来自使用者控制范围之外:使用者采用率、社群互动、客户回馈、市场结果。团队内部也许可以串通刷票数,却无法强迫市场买单,也无法伪造开源社群的真实采用。
这套系统不是用来自动下判决的机器,它更像是人才评估上的”鑑识会计”:我们不再只听面试者说了多动听的故事,而是审计他留下的数字证据链,看他如何在 AI 协作中定义问题、分配任务、纠偏并达成交付。
三个最尖锐的质疑,与我们的回应
我们把这个框架丢进多模型对抗式辩论,跑了三轮压力测试。以下是最有力的三个攻击和我们的回应。
Q1:AI 可以帮人伪造整条证据链。
AI 能伪造地图,但伪造不了走过那条路的记忆。在框架引导的深度面试里,面试官追问的不是”你做了什么”,而是”你怎么做决策的”:为什么放弃那个方法?成本的权衡怎么考虑?遇到 AI 出错时怎么处理?真正做过的人可以回答三层追问。照腳本演的人,第三层就崩了。
Q2:Leverage 的基准(人天)是你自己说已经失效的东西,拿它当分母是循环论证。
Leverage 不该被解读为对照固定基线的静态倍率。它的核心价值是时间维度上的变化率,也就是你的进步速度。一个工程师 2024 年用 GPT-4 达到 10 倍槓杆,2026 年用更强的模型还是 10 倍,这本身就暴露了适应力的停滞。AI 工具在进化,基线在移动,真正有预测力的是你适应每一次典范转移的速度,而不是某一刻的绝对值。
Q3:框架聚焦个人,但 AI 时代最高价值的贡献往往是共享认知资产。
这是目前版本的真实局限。一个人建了一套 Prompt 指令库让整个部门都能用、设计了一个让所有人效率翻倍的工作流程。这种网络效应确实无法被个人维度完整捕捉。Influence 维度部分触及,但不够。团队版框架,衡量一个人如何放大整个系统的产能而不只是自己的,是下一阶段最重要的演化方向。
💡 更多质疑与回应: 关于”为什么不加适应力和伦理维度”、“维度之间的因果归因”、“作者拿自己当案例是否为幸存者偏差”等三个延伸问题,请见文末附录。
案例验证:一个人怎么同时跑八个项目?
为了验证框架的实际可操作性,我拿自己的数据跑了一遍。以下所有数据皆可公开验证。
与其逐项列分数,不如看三个最能体现框架诊断力的对比:
对比一:四语言内容系统。 我的个人网站 paulkuo.tw 已累积 80 多篇文章,每篇都提供繁中、英文、日文与简体中文四种语言版本,并由单次 commit 触发自动翻译管线生成。这不只是 Delivery(交付了多少内容),更反映了 Command(你能不能设计出让 AI 帮你做到这件事的流程)。传统做法?四个翻译、一个编辑、一个项目管理。
对比二:跨领域同时作战。 同时维护八个以上活跃项目,横跨软件开发、内容出版、电商营运、企业顾问,涵盖完全不同的领域。Timing App 的时间追踪数据整合在网站的即时仪表板上,提供实际认知投入时数。这是 Leverage(产能乘数)的直接体现:传统上,这需要五到八人团队。
对比三:最弱的维度说了什么。 我的 Influence 分数是全场最低:开源项目存在但社群互动有限,社群媒体活跃但尚未规模化,重要的演讲和外部引用几乎为零。框架的诊断价值在这里最明显:它不只是验证强项,它用令人不舒服的精确度告诉你下一步该做什么。
更关键的观察不是分数本身,是证据的性质。上面每一项宣称都可以透过公开 URL、GitHub repo、或网站分析 API 独立验证。没有任何一项只靠自我宣称。这就是这个框架跟所有问卷式评估的根本差异:证据存在于系统之外。
一个框架的设计者拿自己当案例,当然有选择偏差。但这个案例的价值不是统计上的,而是工程上的:一个完整、可检视、可复制的蓝图,任何人都能用自己的数据跑一遍。你的团队也可以。把它想成开源释出,不是临床试验。
不做 AI 生产力度量的代价:能力落差正在隐形扩大
为什么这件事重要?因为不做度量的代价,比做错度量更大。
Anthropic Economic Index 记录了一个 deskilling 效应:AI 优先接管工作中的高技能成分,留下低技能的部分。如果我们无法辨识谁真正擅长 AI 协作,高能力者会被系统性低估,而面试表现好但实际产出差的人会被高估。
生产力差距是真实的、而且在扩大。大学程度任务被 AI 加速 12 倍,高中程度只有 9 倍。这不是随时间慢慢累积的小差距,而是结构性的分歧。而且目前对劳动市场完全不可见,因为没有度量系统能把它显现出来。
这个框架也有它的边界,三个最重要的局限需要诚实面对:
个人 vs 系统价值。 框架衡量的是个人产出,但 AI 时代真正高价值的贡献,往往是共享认知资产:一套整个部门都在用的 Prompt 库、一条让所有人加速的自动化流程。如何衡量一个人对系统产能的放大效果,而不只是他自己的产出,是下一阶段最重要的延伸方向。
数字轨迹的隐私边界。 三层证据架构的第一层是自动抓取,但”自动”和”监控”之间的界线,取决于谁握有数据的控制权。如果是员工自主授权、Portfolio 归个人所有,它是赋权工具;如果是企业强制部署、主管单方面调阅,它就会变成数字监控。技术架构必须从一开始就把数据所有权锁死在个人端,否则 Portfolio 会沦为新时代的打卡机。
B2B 报价的商业现实。 框架可以改变企业内部怎么评估人才,但改变不了市场怎么买单。多数甲方的采购流程仍死死绑定”人天报价单”。你可以用 Portfolio 证明自己 40 分钟做完 15 人天的事,但甲方的系统里没有一个栏位能填这种非线性产出。企业内部的人才评估可以先行,但要让这个框架真正替代人天计价,需要整个商业生态的计价慣例一起转型。这不是一个工具能解决的问题,是一场需要时间的产业共识。
💡 更多局限讨论: 关于适应力的捕捉方式、跨组织标准化难度、公平性与可及性等议题,请见文末附录。
这些不是要掩盖的缺陷,而是下一轮迭代的研究方向。
但别忘了:我们面对的选择,不是”这个框架” vs “一个更完美的框架”,而是”有框架” vs “什么都没有”。没有框架的世界长什么样?就是现在这样:企业靠履历上的关键字筛人,靠面试时的印象决策,却完全无法分辨”会用 AI”和”能用 AI 一个人扛起整个团队”之间的巨大落差。
能被量化的,才会被重视。不能的,就会隐形。
AI Collaboration Portfolio 是一次尝试,让隐形的变得可见。它是一张不完美的地图:但替代方案不是一张更好的地图,是蒙着眼睛在新大陆上狂奔。
目前的版本针对个人使用者。企业版,支援团队仪表板、跨部门基准比较、以及招聘流程整合,是下一阶段的开发方向。如果你的组织正在思考怎么评估 AI 人才,欢迎从个人版开始体验框架的逻辑。
→ 免费评估你的 AI 协作等级:paulkuo.tw/tools/ai-collab-portfolio/
附录:更多局限讨论
适应力怎么看? 适应力不是第六个维度,它是五个维度随时间的进步速度。一个人的指挥力、交付力、产能乘数在 AI 工具迭代之间持续提升,他就是高适应力的。框架透过分数的时间轨迹来间接捕捉这件事,未来版本可以把自我迭代速度纳为一级信号。
跨组织的标准化难度。 指挥力在软件工程师身上有版本纪录可以验证,但在行销总监或设计师身上怎么衡量?不同产业、职能、组织规模对维度的定义可能天差地别。五个维度提供了观察结构,但具体的量化指标和权重配置,必然需要依产业和职能做在地化校准。
公平性与可及性。 能取得最新 AI 工具的人,在这个框架里天然佔有优势。如果度量系统本身放大了数字落差,而非揭示真实能力,那它就失败了。
附录:更多质疑与回应
Q4:为什么不加”适应力”和”伦理力”维度?
适应力不是独立维度,而是五个维度随时间的进步速度。一个人的 Command、Delivery、Leverage 分数在 AI 工具迭代之间持续提升,他就是高适应力的。同样的逻辑适用于”反思回路”,也就是用 AI 分析和优化自身工作模式的元技能。它表现为五个维度随时间的上升轨迹,不是第六栏的静态分数。伦理是底线约束,不是绩效指标,违反伦理应该直接取消资格,而不是扣 15 分。
Q5:维度之间有因果关系,无法精确归因。
承认。框架追求的是更丰富的观察,不是数学上的精确切割。归因模糊的地方,三层证据架构提供原始数据让评估者自行判断。这正是框架的设计意图:它不取代人类判断,它给人类判断更好的材料。
Q6:作者拿自己当案例是幸存者偏差。
方法论上完全成立。一个框架的设计者当然会挑对自己有利的证据。回应不是否认偏差,而是让偏差变得结构上不重要:案例中的每一项宣称,都可以透过公开 URL、GitHub repo、或第三方分析 API 独立验证。这个案例的价值不是统计上的,而是工程上的。它提供一个完整、可检视、可复制的蓝图,任何人都能用自己的数据跑一遍。初始版本难免反映创作者的脉络,但它的价值取决于社群是否觉得值得 fork、攻击、改进。
参考文献
- Brooks, F. P. (1975). The Mythical Man-Month: Essays on Software Engineering. Addison-Wesley.
- Dakan, R. & Feller, J. (2025). “Framework for AI Fluency.” Ringling College of Art and Design / University College Cork. Version 1.5.
- Anthropic. (2026, January). “Anthropic Economic Index report: Economic primitives.” anthropic.com/research.
- Anthropic. (2026, March). “Anthropic Economic Index report: Learning curves.” anthropic.com/research.
- Anthropic. (2026, March). “Estimating AI productivity gains from Claude conversations.” anthropic.com/research.
- Anthropic. (2026, March). “Labor market impacts of AI: A new measure and early evidence.” anthropic.com/research.
- US Department of Labor. (2026, February). “AI Literacy Framework.”
- Alan Turing Institute / UK DSIT. (2025). “AI Skills for Business Competency Framework.” Version 3.
- UNESCO. (2026). “AI competency framework for students.” unesdoc.unesco.org.
- Schleiger, E. et al. (2025). “Generative AI in Human-AI Collaboration: Validation of the Collaborative AI Literacy and Collaborative AI Metacognition Scales.” Interacting with Computers. Taylor & Francis.
- Chee, K.N. et al. (2025). “A Competency Framework for AI Literacy.” British Journal of Educational Technology. Wiley.
💬 留言讨论
加载中...