人天已死：AI 協作時代，我們需要新的生產力度量衡

摘要 (TL;DR) — 人天衡量的是出席率，不是價值創造。本文提出 AI Collaboration Portfolio 五維框架（Command / Delivery / Leverage / Quality / Influence），搭配三層防偽證據架構，給企業第一套可驗證的 AI 人才評估方法。附完整案例驗證。→ 免費評估你的 AI 協作等級

40 分鐘做完 15 人天的工作：人天還能衡量什麼？

如果 40 分鐘的深度思考，能創造出相當於傳統 15 人天的產出，那麼，我們衡量工作的方式，是否早已過時？

三個 AI 同時跑。一個分析市場數據並產出進入策略，一個根據策略重構後端架構並部署原型，一個把前兩者的產出整合成一份可執行的營運計畫。操作者花了大約 40 分鐘：定義問題、分配任務、即時校正方向、把關最終品質。結束的時候，桌上擺著一個功能完備的產品原型、一份市場進入策略分析，以及一套自動化營運計畫。

在過去，這需要跨部門五人小組協作三到四天。15 到 20 人天。

這不是常態，這是邊界被推向極致後的縮影。但它預示的趨勢是結構性的：當 AI 大幅壓低了標準化任務的執行門檻，決定產出的不再只是投入多少時間，而是操作者如何定義問題、分配任務與把關品質。這不是要把人變不見，而是把人的角色從「作業員」提升為「策展人」。

所以，「人天」在這裡到底衡量了什麼？它衡量的是時間，不是價值。當度量方式落後於現實，我們衡量到的不是生產力，只是人在不在場（出席率）。

Anthropic 在 2026 年 1 月發布的 Economic Index 提供了實證基礎。他們分析了超過一百萬筆 Claude 對話，發現指令品質與產出品質的相關係數高達 0.92。這項數據背後的意義值得深思：在 AI 時代，「問題定義能力」已經直接等同於「最終績效」。需要大學程度理解力的任務，AI 加速倍率是 12 倍；高中程度的只有 9 倍。

AI 不是均勻地讓每個人變強，而是指數級地放大能力差距。

兩個人的履歷上都寫著「熟悉 AI 工具」，但那可能只是同一句話，對應兩種完全不同的產出能力。一個人能在週末用 AI ship 出整套全端應用，另一個人則可能只是做了多輪提問、生成大量摘要與 NotebookLM 筆記，看起來很忙，最後卻沒有產出真正可用的結果。問題不只是能力差距本身，而是我們直到現在，仍沒有一套方式，去辨認、衡量，甚至命名這種差距。

當工時不再等於產出，企業如何重建績效衡量框架？

1975 年，電腦科學家 Fred Brooks 出版了《人月神話》，最經典的洞見，就是拆穿了「人月」這個迷思：人數和時間從來不是可以互換的變數。每增加一個人，不只增加產能，也同步增加溝通、協調與整合的成本，而這些成本足以吞掉原本想像中的效率增益。所以，當一個專案已經落後，再往裡面加人，通常不是補救，而是讓它更慢。

Brooks 講的是人類團隊。但 AI 時代從反方向驗證了他的論點：AI 大幅壓低了標準化任務的協調門檻。不需要 onboarding，不需要對齊會議，24 小時不間斷工作，幾乎零切換成本。當協調成本趨近零，並行執行第一次真正變得有效率，但建立在「協調很貴」這個假設上的度量衡，就同時失去了意義。

有人試圖用「注意力時長」取代人天。這個概念將人在 AI 協作中的認知投入分成四類：啟動注意力（把模糊需求轉譯成精準指令）、監督注意力（檢查 AI 產出並即時糾偏）、整合注意力（協調多個 AI 的分散輸出）、孵化注意力（讓無意識的後台思考沉澱並催生靈感）。

這樣的分類很有幫助，但「注意力時長」本質上仍是投入端指標。它告訴我們投入了多少認知資源，卻沒有告訴我們這些資源實際產出了什麼、品質如何，以及相較於傳統做法究竟創造了多少價值。

現在的問題是：投入端有「注意力時長」，宏觀端有 Anthropic Economic Index，估算 AI 對美國勞動生產力年增幅的貢獻約為 1.0 個百分點；但在個人層級的產出端，也就是招聘決策發生的層級、自由工作者被評估的層級，幾乎仍是一片空白。

度量衡的真空，不在邊緣，而在正中央。

全球都在測 AI 素養，為什麼沒人測個人產出？

這個真空不是因為沒人在乎。過去兩年，各國政府、國際組織、學術界產出了大量的 AI 能力框架。但它們全部在解決同一個問題：你會不會用 AI？沒有一個在問：你用 AI 做出了什麼？

Anthropic 跟 Rick Dakan、Joseph Feller 合作開發的 AI Fluency Framework，定義了四個核心能力：委派（Delegation）、描述（Description）、辨識（Discernment）、盡責（Diligence）。這大概是目前最接近「怎樣才算會用 AI」的答案。但它描述的是好的 AI 協作長什麼樣子，不量化它產出了什麼。

Anthropic 自己的 Economic Index 從另一個角度切入，分析數百萬筆真實對話來估算 AI 對勞動生產力的影響。數據極有價值，但它操作在國家經濟的層級，不是你公司下一次招聘決策的層級。

美國勞工部發布了 AI Literacy Framework，英國 Turing Institute 推出了《AI Skills for Business Framework》第三版，UNESCO 有學生與教師的 AI 能力框架，學術界也提出了 Collaborative AI Literacy 與 Collaborative AI Metacognition 等量表。

框架很多，但它們回答的都是同一類問題：你是否理解 AI、能否合理使用、是否知道它的侷限。換句話說，它們測的是素養，你的 AI 知識夠不夠。可企業真正需要知道的，是績效：你用 AI 實際做出了什麼、成果品質如何、相較於傳統做法到底快了多少。

全球 AI 能力框架定位圖：左下象限擠滿素養型框架，右下象限（個人績效）仍是空白

把現有的框架放到一個 2×2 矩陣上（橫軸是「素養 vs 績效」，縱軸是「個人 vs 宏觀」），你會看到左邊擠滿了人（UNESCO、DOL、Turing、各種學術量表），右上角有 Anthropic Economic Index。右下角，也就是個人層級、基於績效、可驗證的象限，是空的。

所有人都在測 AI 素養。沒有人在測個人的 AI 生產力。這篇文章提出一個框架來填這個缺口。跟我之前寫的AI 時代的能力落差那篇是同一條線：那篇講的是落差的存在，這篇講的是怎麼量化它。

AI Collaboration Portfolio 五維模型：你的團隊真正缺什麼人？

AI Collaboration Portfolio 是一個五維模型，衡量個人透過 AI 協作實際產出了什麼。設計原則：每個維度必須有理論依據、可量化指標、以及來自第三方的可驗證數據來源。

但在看指標之前，先想像你正在面試。坐在你對面的候選人說「我很會用 AI」，你要怎麼判斷這句話是真是假？

企業要分辨一個人是不是「真的會用 AI」，其實只需要看五件事：他能不能把 AI 指揮對（指揮力）、他到底交付了什麼實質成果（交付力）、同樣時間他能放大多少產能（產能乘數）、產出的成果品質撐不撐得住（品質力）、他的方法有沒有被別人採用（擴散力）。

以下逐一展開。

Command 指揮力（25%）｜解決「不會問問題的人」

你的團隊裡有沒有這種人：工具都裝了，帳號都開了，但產出還是靠自己手動？問題不在工具，在指揮。Command 衡量的是：你能不能讓 AI 做對的事？

Anthropic 的研究顯示，指令品質與產出品質的相關性極高。換句話說，會問問題的人，AI 替他做出來的東西就是比較好。高指揮力的人不只是會下 prompt，他們建立可複用的工作流程、設計自動化管線、把模糊需求翻譯成 AI 能執行的精確任務。

驗證方式：可複用的工作流程與系統指令數量、自動化管線數、AI 工具整合廣度、多步驟任務拆解的複雜度。

Delivery 交付力（25%）｜解決「只會空談 AI 的人」

開會的時候很會講 AI 趨勢，但季末盤點的時候，實際 ship 了什麼？Delivery 衡量的不是你試過什麼，是你上線了什麼。

驗證方式：版本紀錄的頻率與量、部署中的服務或工具數、發布的內容數、從零到上線的完整專案數、程式碼品質指標。

Leverage 產能乘數（20%）｜解決「加人加不動」的瓶頸

這就是「40 分鐘 vs. 15 人天」的核心。Leverage 直接回答企業最在乎的問題：這個人加入之後，團隊的產能乘數是多少？同樣的認知投入，透過 AI 協作放大了多少倍？

驗證方式：實際認知投入 vs 傳統估算的比值、並行專案數、AI 工具調度數量、自動化覆蓋率。

Quality 品質力（15%）｜解決「量產但沒品質」的風險

AI 能大量生成內容的時代，品質守門人空前重要。Anthropic 的研究發現，把任務成功率計入後，生產力提升的估算會縮減約三分之一。也就是說，有三分之一的「加速」其實是品質打折。Quality 衡量的是：你的產出經得起檢驗嗎？

驗證方式：使用者或流量數、系統穩定度、品質控制機制數（自動測試、查核流程、審查制度）、外部引用或分享次數。

Influence 擴散力（15%）｜解決「強者無法複製」的困境

一個人再強，如果方法只活在他自己腦袋裡，對組織的價值就有天花板。Influence 衡量的是：你的方法有沒有被別人學習或採用？這是從個人貢獻者到組織賦能者的轉變，也是最高槓桿的價值創造形式。

驗證方式：開源專案互動數（stars, forks, contributors）、工作流程模板採用次數、教學內容觸及人數、方法論被外部引用次數。

維度之間的關係

誠實地說：這五個維度不是完全獨立的。高品質（Quality）常常是擴散力（Influence）的前因。一條強大的自動化管線（Leverage）本身就是一種交付（Delivery）。這五項能力並非孤立存在，而是相互賦能的價值環路。

這是設計特徵，不是缺陷。真實的價值創造本來就是多維交織的。財務報表裡的營收、毛利、淨利也有因果關係，但我們不會因此只看一個數字，因為每個數字揭示了不同面向。五個維度是五個觀察鏡頭，不是五個獨立變數。目標是更豐富的觀察，不是完美的分解。

怎麼防止 Portfolio 變成刷分遊戲？

任何能力框架最常被質疑的，就是它會不會淪為刷分遊戲。

這個擔憂完全成立。Goodhart’s Law 早就指出：當指標成為目標，它就不再是好指標。沒有任何量化系統能豁免於這條規律。真正需要追問的，不是它能不能被灌水，而是灌水的成本是否夠高，高到讓操弄變得不划算。

AI Collaboration Portfolio 用三層證據架構來回應：

第一層：自動抓取。 使用者授權後，系統從第三方平台直接拉取數據，包括版本紀錄、程式庫結構、自動化流程檔案、網站分析、套件下載量、社群指標。這些數據由獨立平台記錄，使用者無法竄改。你的 GitHub 上有幾個 commit 就是幾個。這層是 Portfolio 的「硬證據」底線。

第二層：結構化自評。 無法自動抓取的部分（並行專案數、傳統人天估算、AI 工具整合方式），用結構化表單引導填寫。每個自評欄位旁邊都有一個「證據連結」欄位。有附連結的標記為 Evidenced，沒附的標記為 Self-reported。任何看你 Portfolio 的人都能看到這個標記，自行判斷可信度。

第三層：AI 校驗。 使用者授權後，AI 分析程式庫結構和程式碼模式，獨立建議各維度的分數。AI 建議分數跟使用者自評並列顯示。如果你自評 90 分但 AI 建議 50 分，這個差距會被視覺化標記。

三層一起運作：自動數據不能造假、自評有透明的證據標記、AI 提供獨立參照。這不是消滅灌水，是把灌水的成本拉高到不划算。

更關鍵的是，這個框架的終極防線不在內部驗證，而在外部現實。Quality 與 Influence 兩個維度所要求的證據，來自使用者控制範圍之外：使用者採用率、社群互動、客戶回饋、市場結果。團隊內部也許可以串通刷票數，卻無法強迫市場買單，也無法偽造開源社群的真實採用。

這套系統不是用來自動下判決的機器，它更像是人才評估上的「鑑識會計」：我們不再只聽面試者說了多動聽的故事，而是審計他留下的數位證據鏈，看他如何在 AI 協作中定義問題、分配任務、糾偏並達成交付。

三個最尖銳的質疑，與我們的回應

我們把這個框架丟進多模型對抗式辯論，跑了三輪壓力測試。以下是最有力的三個攻擊和我們的回應。

Q1：AI 可以幫人偽造整條證據鏈。

AI 能偽造地圖，但偽造不了走過那條路的記憶。在框架引導的深度面試裡，面試官追問的不是「你做了什麼」，而是「你怎麼做決策的」：為什麼放棄那個方法？成本的權衡怎麼考慮？遇到 AI 出錯時怎麼處理？真正做過的人可以回答三層追問。照腳本演的人，第三層就崩了。

Q2：Leverage 的基準（人天）是你自己說已經失效的東西，拿它當分母是循環論證。

Leverage 不該被解讀為對照固定基線的靜態倍率。它的核心價值是時間維度上的變化率，也就是你的進步速度。一個工程師 2024 年用 GPT-4 達到 10 倍槓桿，2026 年用更強的模型還是 10 倍，這本身就暴露了適應力的停滯。AI 工具在進化，基線在移動，真正有預測力的是你適應每一次典範轉移的速度，而不是某一刻的絕對值。

Q3：框架聚焦個人，但 AI 時代最高價值的貢獻往往是共享認知資產。

這是目前版本的真實局限。一個人建了一套 Prompt 指令庫讓整個部門都能用、設計了一個讓所有人效率翻倍的工作流程。這種網絡效應確實無法被個人維度完整捕捉。Influence 維度部分觸及，但不夠。團隊版框架，衡量一個人如何放大整個系統的產能而不只是自己的，是下一階段最重要的演化方向。

💡 更多質疑與回應： 關於「為什麼不加適應力和倫理維度」、「維度之間的因果歸因」、「作者拿自己當案例是否為倖存者偏差」等三個延伸問題，請見文末附錄。

案例驗證：一個人怎麼同時跑八個專案？

為了驗證框架的實際可操作性，我拿自己的數據跑了一遍。以下所有數據皆可公開驗證。

與其逐項列分數，不如看三個最能體現框架診斷力的對比：

對比一：四語言內容系統。 我的個人網站 paulkuo.tw 已累積 80 多篇文章，每篇都提供繁中、英文、日文與簡體中文四種語言版本，並由單次 commit 觸發自動翻譯管線生成。這不只是 Delivery（交付了多少內容），更反映了 Command（你能不能設計出讓 AI 幫你做到這件事的流程）。傳統做法？四個翻譯、一個編輯、一個專案管理。

對比二：跨領域同時作戰。 同時維護八個以上活躍專案，橫跨軟體開發、內容出版、電商營運、企業顧問，涵蓋完全不同的領域。Timing App 的時間追蹤數據整合在網站的即時儀表板上，提供實際認知投入時數。這是 Leverage（產能乘數）的直接體現：傳統上，這需要五到八人團隊。

對比三：最弱的維度說了什麼。 我的 Influence 分數是全場最低：開源專案存在但社群互動有限，社群媒體活躍但尚未規模化，重要的演講和外部引用幾乎為零。框架的診斷價值在這裡最明顯：它不只是驗證強項，它用令人不舒服的精確度告訴你下一步該做什麼。

更關鍵的觀察不是分數本身，是證據的性質。上面每一項宣稱都可以透過公開 URL、GitHub repo、或網站分析 API 獨立驗證。沒有任何一項只靠自我宣稱。這就是這個框架跟所有問卷式評估的根本差異：證據存在於系統之外。

一個框架的設計者拿自己當案例，當然有選擇偏差。但這個案例的價值不是統計上的，而是工程上的：一個完整、可檢視、可複製的藍圖，任何人都能用自己的數據跑一遍。你的團隊也可以。把它想成開源釋出，不是臨床試驗。

不做 AI 生產力度量的代價：能力落差正在隱形擴大

為什麼這件事重要？因為不做度量的代價，比做錯度量更大。

Anthropic Economic Index 記錄了一個 deskilling 效應：AI 優先接管工作中的高技能成分，留下低技能的部分。如果我們無法辨識誰真正擅長 AI 協作，高能力者會被系統性低估，而面試表現好但實際產出差的人會被高估。

生產力差距是真實的、而且在擴大。大學程度任務被 AI 加速 12 倍，高中程度只有 9 倍。這不是隨時間慢慢累積的小差距，而是結構性的分歧。而且目前對勞動市場完全不可見，因為沒有度量系統能把它顯現出來。

這個框架也有它的邊界，三個最重要的局限需要誠實面對：

個人 vs 系統價值。 框架衡量的是個人產出，但 AI 時代真正高價值的貢獻，往往是共享認知資產：一套整個部門都在用的 Prompt 庫、一條讓所有人加速的自動化流程。如何衡量一個人對系統產能的放大效果，而不只是他自己的產出，是下一階段最重要的延伸方向。

數位軌跡的隱私邊界。 三層證據架構的第一層是自動抓取，但「自動」和「監控」之間的界線，取決於誰握有數據的控制權。如果是員工自主授權、Portfolio 歸個人所有，它是賦權工具；如果是企業強制部署、主管單方面調閱，它就會變成數位監控。技術架構必須從一開始就把數據所有權鎖死在個人端，否則 Portfolio 會淪為新時代的打卡機。

B2B 報價的商業現實。 框架可以改變企業內部怎麼評估人才，但改變不了市場怎麼買單。多數甲方的採購流程仍死死綁定「人天報價單」。你可以用 Portfolio 證明自己 40 分鐘做完 15 人天的事，但甲方的系統裡沒有一個欄位能填這種非線性產出。企業內部的人才評估可以先行，但要讓這個框架真正替代人天計價，需要整個商業生態的計價慣例一起轉型。這不是一個工具能解決的問題，是一場需要時間的產業共識。

💡 更多局限討論： 關於適應力的捕捉方式、跨組織標準化難度、公平性與可及性等議題，請見文末附錄。

這些不是要掩蓋的缺陷，而是下一輪迭代的研究方向。

但別忘了：我們面對的選擇，不是「這個框架」vs「一個更完美的框架」，而是「有框架」vs「什麼都沒有」。沒有框架的世界長什麼樣？就是現在這樣：企業靠履歷上的關鍵字篩人，靠面試時的印象決策，卻完全無法分辨「會用 AI」和「能用 AI 一個人扛起整個團隊」之間的巨大落差。

能被量化的，才會被重視。不能的，就會隱形。

AI Collaboration Portfolio 是一次嘗試，讓隱形的變得可見。它是一張不完美的地圖：但替代方案不是一張更好的地圖，是蒙著眼睛在新大陸上狂奔。

目前的版本針對個人使用者。企業版，支援團隊儀表板、跨部門基準比較、以及招聘流程整合，是下一階段的開發方向。如果你的組織正在思考怎麼評估 AI 人才，歡迎從個人版開始體驗框架的邏輯。

→ 免費評估你的 AI 協作等級：paulkuo.tw/tools/ai-collab-portfolio/

附錄：更多局限討論

適應力怎麼看？ 適應力不是第六個維度，它是五個維度隨時間的進步速度。一個人的指揮力、交付力、產能乘數在 AI 工具迭代之間持續提升，他就是高適應力的。框架透過分數的時間軌跡來間接捕捉這件事，未來版本可以把自我迭代速度納為一級信號。

跨組織的標準化難度。 指揮力在軟體工程師身上有版本紀錄可以驗證，但在行銷總監或設計師身上怎麼衡量？不同產業、職能、組織規模對維度的定義可能天差地別。五個維度提供了觀察結構，但具體的量化指標和權重配置，必然需要依產業和職能做在地化校準。

公平性與可及性。 能取得最新 AI 工具的人，在這個框架裡天然佔有優勢。如果度量系統本身放大了數位落差，而非揭示真實能力，那它就失敗了。

附錄：更多質疑與回應

Q4：為什麼不加「適應力」和「倫理力」維度？

適應力不是獨立維度，而是五個維度隨時間的進步速度。一個人的 Command、Delivery、Leverage 分數在 AI 工具迭代之間持續提升，他就是高適應力的。同樣的邏輯適用於「反思迴路」，也就是用 AI 分析和優化自身工作模式的元技能。它表現為五個維度隨時間的上升軌跡，不是第六欄的靜態分數。倫理是底線約束，不是績效指標，違反倫理應該直接取消資格，而不是扣 15 分。

Q5：維度之間有因果關係，無法精確歸因。

承認。框架追求的是更豐富的觀察，不是數學上的精確切割。歸因模糊的地方，三層證據架構提供原始數據讓評估者自行判斷。這正是框架的設計意圖：它不取代人類判斷，它給人類判斷更好的材料。

Q6：作者拿自己當案例是倖存者偏差。

方法論上完全成立。一個框架的設計者當然會挑對自己有利的證據。回應不是否認偏差，而是讓偏差變得結構上不重要：案例中的每一項宣稱，都可以透過公開 URL、GitHub repo、或第三方分析 API 獨立驗證。這個案例的價值不是統計上的，而是工程上的。它提供一個完整、可檢視、可複製的藍圖，任何人都能用自己的數據跑一遍。初始版本難免反映創作者的脈絡，但它的價值取決於社群是否覺得值得 fork、攻擊、改進。

參考文獻

Brooks, F. P. (1975). The Mythical Man-Month: Essays on Software Engineering. Addison-Wesley.
Dakan, R. & Feller, J. (2025). “Framework for AI Fluency.” Ringling College of Art and Design / University College Cork. Version 1.5.
Anthropic. (2026, January). “Anthropic Economic Index report: Economic primitives.” anthropic.com/research.
Anthropic. (2026, March). “Anthropic Economic Index report: Learning curves.” anthropic.com/research.
Anthropic. (2026, March). “Estimating AI productivity gains from Claude conversations.” anthropic.com/research.
Anthropic. (2026, March). “Labor market impacts of AI: A new measure and early evidence.” anthropic.com/research.
US Department of Labor. (2026, February). “AI Literacy Framework.”
Alan Turing Institute / UK DSIT. (2025). “AI Skills for Business Competency Framework.” Version 3.
UNESCO. (2026). “AI competency framework for students.” unesdoc.unesco.org.
Schleiger, E. et al. (2025). “Generative AI in Human-AI Collaboration: Validation of the Collaborative AI Literacy and Collaborative AI Metacognition Scales.” Interacting with Computers. Taylor & Francis.
Chee, K.N. et al. (2025). “A Competency Framework for AI Literacy.” British Journal of Educational Technology. Wiley.

項目	費用 (USD)	費用 (TWD)
EN 翻譯	$1.675	$54.46
JA 翻譯	$0.149	$4.85
ZH-CN 翻譯	$0.149	$4.86
合計	$1.974	$64.17

40 分鐘做完 15 人天的工作：人天還能衡量什麼？

當工時不再等於產出，企業如何重建績效衡量框架？

全球都在測 AI 素養，為什麼沒人測個人產出？

AI Collaboration Portfolio 五維模型：你的團隊真正缺什麼人？

Command 指揮力（25%）｜解決「不會問問題的人」

Delivery 交付力（25%）｜解決「只會空談 AI 的人」

Leverage 產能乘數（20%）｜解決「加人加不動」的瓶頸

Quality 品質力（15%）｜解決「量產但沒品質」的風險

Influence 擴散力（15%）｜解決「強者無法複製」的困境

維度之間的關係

怎麼防止 Portfolio 變成刷分遊戲？

三個最尖銳的質疑，與我們的回應

案例驗證：一個人怎麼同時跑八個專案？

不做 AI 生產力度量的代價：能力落差正在隱形擴大

附錄：更多局限討論

附錄：更多質疑與回應

參考文獻

💬 留言討論

延伸閱讀

知識管理不靠自律，靠管線

網站訪客數是零，但 Dashboard 說有 130 人

把 paulkuo.tw 變成一個自己進化的網站