摘要 (TL;DR) — 人天衡量的是出席率,不是價值創造。本文提出 AI Collaboration Portfolio 五維框架(Command / Delivery / Leverage / Quality / Influence),搭配三層防偽證據架構,給企業第一套可驗證的 AI 人才評估方法。附完整案例驗證。→ 免費評估你的 AI 協作等級

40 分鐘做完 15 人天的工作:人天還能衡量什麼?

如果 40 分鐘的深度思考,能創造出相當於傳統 15 人天的產出,那麼,我們衡量工作的方式,是否早已過時?


三個 AI 同時跑。一個分析市場數據並產出進入策略,一個根據策略重構後端架構並部署原型,一個把前兩者的產出整合成一份可執行的營運計畫。操作者花了大約 40 分鐘:定義問題、分配任務、即時校正方向、把關最終品質。結束的時候,桌上擺著一個功能完備的產品原型、一份市場進入策略分析,以及一套自動化營運計畫。

在過去,這需要跨部門五人小組協作三到四天。15 到 20 人天。

這不是常態,這是邊界被推向極致後的縮影。但它預示的趨勢是結構性的:當 AI 大幅壓低了標準化任務的執行門檻,決定產出的不再只是投入多少時間,而是操作者如何定義問題、分配任務與把關品質。這不是要把人變不見,而是把人的角色從「作業員」提升為「策展人」。

所以,「人天」在這裡到底衡量了什麼?它衡量的是時間,不是價值。當度量方式落後於現實,我們衡量到的不是生產力,只是人在不在場(出席率)。

Anthropic 在 2026 年 1 月發布的 Economic Index 提供了實證基礎。他們分析了超過一百萬筆 Claude 對話,發現指令品質與產出品質的相關係數高達 0.92。這項數據背後的意義值得深思:在 AI 時代,「問題定義能力」已經直接等同於「最終績效」。需要大學程度理解力的任務,AI 加速倍率是 12 倍;高中程度的只有 9 倍。

AI 不是均勻地讓每個人變強,而是指數級地放大能力差距。

兩個人的履歷上都寫著「熟悉 AI 工具」,但那可能只是同一句話,對應兩種完全不同的產出能力。 一個人能在週末用 AI ship 出整套全端應用,另一個人則可能只是做了多輪提問、生成大量摘要與 NotebookLM 筆記,看起來很忙,最後卻沒有產出真正可用的結果。 問題不只是能力差距本身,而是我們直到現在,仍沒有一套方式,去辨認、衡量,甚至命名這種差距。


當工時不再等於產出,企業如何重建績效衡量框架?

1975 年,電腦科學家 Fred Brooks 出版了《人月神話》,最經典的洞見,就是拆穿了「人月」這個迷思:人數和時間從來不是可以互換的變數。每增加一個人,不只增加產能,也同步增加溝通、協調與整合的成本,而這些成本足以吞掉原本想像中的效率增益。所以,當一個專案已經落後,再往裡面加人,通常不是補救,而是讓它更慢。

Brooks 講的是人類團隊。但 AI 時代從反方向驗證了他的論點:AI 大幅壓低了標準化任務的協調門檻。不需要 onboarding,不需要對齊會議,24 小時不間斷工作,幾乎零切換成本。當協調成本趨近零,並行執行第一次真正變得有效率,但建立在「協調很貴」這個假設上的度量衡,就同時失去了意義。

有人試圖用「注意力時長」取代人天。這個概念將人在 AI 協作中的認知投入分成四類:啟動注意力(把模糊需求轉譯成精準指令)、監督注意力(檢查 AI 產出並即時糾偏)、整合注意力(協調多個 AI 的分散輸出)、孵化注意力(讓無意識的後台思考沉澱並催生靈感)。

這樣的分類很有幫助,但「注意力時長」本質上仍是投入端指標。它告訴我們投入了多少認知資源,卻沒有告訴我們這些資源實際產出了什麼、品質如何,以及相較於傳統做法究竟創造了多少價值。

現在的問題是:投入端有「注意力時長」,宏觀端有 Anthropic Economic Index,估算 AI 對美國勞動生產力年增幅的貢獻約為 1.0 個百分點;但在個人層級的產出端,也就是招聘決策發生的層級、自由工作者被評估的層級,幾乎仍是一片空白。

度量衡的真空,不在邊緣,而在正中央。


全球都在測 AI 素養,為什麼沒人測個人產出?

這個真空不是因為沒人在乎。過去兩年,各國政府、國際組織、學術界產出了大量的 AI 能力框架。但它們全部在解決同一個問題:你會不會用 AI?沒有一個在問:你用 AI 做出了什麼?

Anthropic 跟 Rick Dakan、Joseph Feller 合作開發的 AI Fluency Framework,定義了四個核心能力:委派(Delegation)、描述(Description)、辨識(Discernment)、盡責(Diligence)。這大概是目前最接近「怎樣才算會用 AI」的答案。但它描述的是好的 AI 協作長什麼樣子,不量化它產出了什麼。

Anthropic 自己的 Economic Index 從另一個角度切入,分析數百萬筆真實對話來估算 AI 對勞動生產力的影響。數據極有價值,但它操作在國家經濟的層級,不是你公司下一次招聘決策的層級。

美國勞工部發布了 AI Literacy Framework,英國 Turing Institute 推出了《AI Skills for Business Framework》第三版,UNESCO 有學生與教師的 AI 能力框架,學術界也提出了 Collaborative AI Literacy 與 Collaborative AI Metacognition 等量表。

框架很多,但它們回答的都是同一類問題:你是否理解 AI、能否合理使用、是否知道它的侷限。換句話說,它們測的是素養,你的 AI 知識夠不夠。可企業真正需要知道的,是績效:你用 AI 實際做出了什麼、成果品質如何、相較於傳統做法到底快了多少。

全球 AI 能力框架定位圖:左下象限擠滿素養型框架,右下象限(個人績效)仍是空白

把現有的框架放到一個 2×2 矩陣上(橫軸是「素養 vs 績效」,縱軸是「個人 vs 宏觀」),你會看到左邊擠滿了人(UNESCO、DOL、Turing、各種學術量表),右上角有 Anthropic Economic Index。右下角,也就是個人層級、基於績效、可驗證的象限,是空的。

所有人都在測 AI 素養。沒有人在測個人的 AI 生產力。這篇文章提出一個框架來填這個缺口。跟我之前寫的AI 時代的能力落差那篇是同一條線:那篇講的是落差的存在,這篇講的是怎麼量化它。


AI Collaboration Portfolio 五維模型:你的團隊真正缺什麼人?

AI Collaboration Portfolio 是一個五維模型,衡量個人透過 AI 協作實際產出了什麼。設計原則:每個維度必須有理論依據、可量化指標、以及來自第三方的可驗證數據來源。

但在看指標之前,先想像你正在面試。坐在你對面的候選人說「我很會用 AI」,你要怎麼判斷這句話是真是假?

企業要分辨一個人是不是「真的會用 AI」,其實只需要看五件事:他能不能把 AI 指揮對(指揮力)、他到底交付了什麼實質成果(交付力)、同樣時間他能放大多少產能(產能乘數)、產出的成果品質撐不撐得住(品質力)、他的方法有沒有被別人採用(擴散力)。

以下逐一展開。

Command 指揮力(25%)|解決「不會問問題的人」

你的團隊裡有沒有這種人:工具都裝了,帳號都開了,但產出還是靠自己手動?問題不在工具,在指揮。Command 衡量的是:你能不能讓 AI 做對的事?

Anthropic 的研究顯示,指令品質與產出品質的相關性極高。換句話說,會問問題的人,AI 替他做出來的東西就是比較好。高指揮力的人不只是會下 prompt,他們建立可複用的工作流程、設計自動化管線、把模糊需求翻譯成 AI 能執行的精確任務。

驗證方式:可複用的工作流程與系統指令數量、自動化管線數、AI 工具整合廣度、多步驟任務拆解的複雜度。

Delivery 交付力(25%)|解決「只會空談 AI 的人」

開會的時候很會講 AI 趨勢,但季末盤點的時候,實際 ship 了什麼?Delivery 衡量的不是你試過什麼,是你上線了什麼。

驗證方式:版本紀錄的頻率與量、部署中的服務或工具數、發布的內容數、從零到上線的完整專案數、程式碼品質指標。

Leverage 產能乘數(20%)|解決「加人加不動」的瓶頸

這就是「40 分鐘 vs. 15 人天」的核心。Leverage 直接回答企業最在乎的問題:這個人加入之後,團隊的產能乘數是多少?同樣的認知投入,透過 AI 協作放大了多少倍?

驗證方式:實際認知投入 vs 傳統估算的比值、並行專案數、AI 工具調度數量、自動化覆蓋率。

Quality 品質力(15%)|解決「量產但沒品質」的風險

AI 能大量生成內容的時代,品質守門人空前重要。Anthropic 的研究發現,把任務成功率計入後,生產力提升的估算會縮減約三分之一。也就是說,有三分之一的「加速」其實是品質打折。Quality 衡量的是:你的產出經得起檢驗嗎?

驗證方式:使用者或流量數、系統穩定度、品質控制機制數(自動測試、查核流程、審查制度)、外部引用或分享次數。

Influence 擴散力(15%)|解決「強者無法複製」的困境

一個人再強,如果方法只活在他自己腦袋裡,對組織的價值就有天花板。Influence 衡量的是:你的方法有沒有被別人學習或採用?這是從個人貢獻者到組織賦能者的轉變,也是最高槓桿的價值創造形式。

驗證方式:開源專案互動數(stars, forks, contributors)、工作流程模板採用次數、教學內容觸及人數、方法論被外部引用次數。

維度之間的關係

誠實地說:這五個維度不是完全獨立的。高品質(Quality)常常是擴散力(Influence)的前因。一條強大的自動化管線(Leverage)本身就是一種交付(Delivery)。這五項能力並非孤立存在,而是相互賦能的價值環路。

這是設計特徵,不是缺陷。真實的價值創造本來就是多維交織的。財務報表裡的營收、毛利、淨利也有因果關係,但我們不會因此只看一個數字,因為每個數字揭示了不同面向。五個維度是五個觀察鏡頭,不是五個獨立變數。目標是更豐富的觀察,不是完美的分解。


怎麼防止 Portfolio 變成刷分遊戲?

任何能力框架最常被質疑的,就是它會不會淪為刷分遊戲。

這個擔憂完全成立。Goodhart’s Law 早就指出:當指標成為目標,它就不再是好指標。沒有任何量化系統能豁免於這條規律。真正需要追問的,不是它能不能被灌水,而是灌水的成本是否夠高,高到讓操弄變得不划算。

AI Collaboration Portfolio 用三層證據架構來回應:

第一層:自動抓取。 使用者授權後,系統從第三方平台直接拉取數據,包括版本紀錄、程式庫結構、自動化流程檔案、網站分析、套件下載量、社群指標。這些數據由獨立平台記錄,使用者無法竄改。你的 GitHub 上有幾個 commit 就是幾個。這層是 Portfolio 的「硬證據」底線。

第二層:結構化自評。 無法自動抓取的部分(並行專案數、傳統人天估算、AI 工具整合方式),用結構化表單引導填寫。每個自評欄位旁邊都有一個「證據連結」欄位。有附連結的標記為 Evidenced,沒附的標記為 Self-reported。任何看你 Portfolio 的人都能看到這個標記,自行判斷可信度。

第三層:AI 校驗。 使用者授權後,AI 分析程式庫結構和程式碼模式,獨立建議各維度的分數。AI 建議分數跟使用者自評並列顯示。如果你自評 90 分但 AI 建議 50 分,這個差距會被視覺化標記。

三層一起運作:自動數據不能造假、自評有透明的證據標記、AI 提供獨立參照。這不是消滅灌水,是把灌水的成本拉高到不划算。

更關鍵的是,這個框架的終極防線不在內部驗證,而在外部現實。Quality 與 Influence 兩個維度所要求的證據,來自使用者控制範圍之外:使用者採用率、社群互動、客戶回饋、市場結果。團隊內部也許可以串通刷票數,卻無法強迫市場買單,也無法偽造開源社群的真實採用。

這套系統不是用來自動下判決的機器,它更像是人才評估上的「鑑識會計」:我們不再只聽面試者說了多動聽的故事,而是審計他留下的數位證據鏈,看他如何在 AI 協作中定義問題、分配任務、糾偏並達成交付。


三個最尖銳的質疑,與我們的回應

我們把這個框架丟進多模型對抗式辯論,跑了三輪壓力測試。以下是最有力的三個攻擊和我們的回應。

Q1:AI 可以幫人偽造整條證據鏈。

AI 能偽造地圖,但偽造不了走過那條路的記憶。在框架引導的深度面試裡,面試官追問的不是「你做了什麼」,而是「你怎麼做決策的」:為什麼放棄那個方法?成本的權衡怎麼考慮?遇到 AI 出錯時怎麼處理?真正做過的人可以回答三層追問。照腳本演的人,第三層就崩了。

Q2:Leverage 的基準(人天)是你自己說已經失效的東西,拿它當分母是循環論證。

Leverage 不該被解讀為對照固定基線的靜態倍率。它的核心價值是時間維度上的變化率,也就是你的進步速度。一個工程師 2024 年用 GPT-4 達到 10 倍槓桿,2026 年用更強的模型還是 10 倍,這本身就暴露了適應力的停滯。AI 工具在進化,基線在移動,真正有預測力的是你適應每一次典範轉移的速度,而不是某一刻的絕對值。

Q3:框架聚焦個人,但 AI 時代最高價值的貢獻往往是共享認知資產。

這是目前版本的真實局限。一個人建了一套 Prompt 指令庫讓整個部門都能用、設計了一個讓所有人效率翻倍的工作流程。這種網絡效應確實無法被個人維度完整捕捉。Influence 維度部分觸及,但不夠。團隊版框架,衡量一個人如何放大整個系統的產能而不只是自己的,是下一階段最重要的演化方向。

💡 更多質疑與回應: 關於「為什麼不加適應力和倫理維度」、「維度之間的因果歸因」、「作者拿自己當案例是否為倖存者偏差」等三個延伸問題,請見文末附錄


案例驗證:一個人怎麼同時跑八個專案?

為了驗證框架的實際可操作性,我拿自己的數據跑了一遍。以下所有數據皆可公開驗證。

與其逐項列分數,不如看三個最能體現框架診斷力的對比:

對比一:四語言內容系統。 我的個人網站 paulkuo.tw 已累積 80 多篇文章,每篇都提供繁中、英文、日文與簡體中文四種語言版本,並由單次 commit 觸發自動翻譯管線生成。這不只是 Delivery(交付了多少內容),更反映了 Command(你能不能設計出讓 AI 幫你做到這件事的流程)。傳統做法?四個翻譯、一個編輯、一個專案管理。

對比二:跨領域同時作戰。 同時維護八個以上活躍專案,橫跨軟體開發、內容出版、電商營運、企業顧問,涵蓋完全不同的領域。Timing App 的時間追蹤數據整合在網站的即時儀表板上,提供實際認知投入時數。這是 Leverage(產能乘數)的直接體現:傳統上,這需要五到八人團隊。

對比三:最弱的維度說了什麼。 我的 Influence 分數是全場最低:開源專案存在但社群互動有限,社群媒體活躍但尚未規模化,重要的演講和外部引用幾乎為零。框架的診斷價值在這裡最明顯:它不只是驗證強項,它用令人不舒服的精確度告訴你下一步該做什麼。

更關鍵的觀察不是分數本身,是證據的性質。上面每一項宣稱都可以透過公開 URL、GitHub repo、或網站分析 API 獨立驗證。沒有任何一項只靠自我宣稱。這就是這個框架跟所有問卷式評估的根本差異:證據存在於系統之外。

一個框架的設計者拿自己當案例,當然有選擇偏差。但這個案例的價值不是統計上的,而是工程上的:一個完整、可檢視、可複製的藍圖,任何人都能用自己的數據跑一遍。你的團隊也可以。把它想成開源釋出,不是臨床試驗。


不做 AI 生產力度量的代價:能力落差正在隱形擴大

為什麼這件事重要?因為不做度量的代價,比做錯度量更大。

Anthropic Economic Index 記錄了一個 deskilling 效應:AI 優先接管工作中的高技能成分,留下低技能的部分。如果我們無法辨識誰真正擅長 AI 協作,高能力者會被系統性低估,而面試表現好但實際產出差的人會被高估。

生產力差距是真實的、而且在擴大。大學程度任務被 AI 加速 12 倍,高中程度只有 9 倍。這不是隨時間慢慢累積的小差距,而是結構性的分歧。而且目前對勞動市場完全不可見,因為沒有度量系統能把它顯現出來。

這個框架也有它的邊界,三個最重要的局限需要誠實面對:

個人 vs 系統價值。 框架衡量的是個人產出,但 AI 時代真正高價值的貢獻,往往是共享認知資產:一套整個部門都在用的 Prompt 庫、一條讓所有人加速的自動化流程。如何衡量一個人對系統產能的放大效果,而不只是他自己的產出,是下一階段最重要的延伸方向。

數位軌跡的隱私邊界。 三層證據架構的第一層是自動抓取,但「自動」和「監控」之間的界線,取決於誰握有數據的控制權。如果是員工自主授權、Portfolio 歸個人所有,它是賦權工具;如果是企業強制部署、主管單方面調閱,它就會變成數位監控。技術架構必須從一開始就把數據所有權鎖死在個人端,否則 Portfolio 會淪為新時代的打卡機。

B2B 報價的商業現實。 框架可以改變企業內部怎麼評估人才,但改變不了市場怎麼買單。多數甲方的採購流程仍死死綁定「人天報價單」。你可以用 Portfolio 證明自己 40 分鐘做完 15 人天的事,但甲方的系統裡沒有一個欄位能填這種非線性產出。企業內部的人才評估可以先行,但要讓這個框架真正替代人天計價,需要整個商業生態的計價慣例一起轉型。這不是一個工具能解決的問題,是一場需要時間的產業共識。

💡 更多局限討論: 關於適應力的捕捉方式、跨組織標準化難度、公平性與可及性等議題,請見文末附錄

這些不是要掩蓋的缺陷,而是下一輪迭代的研究方向。

但別忘了:我們面對的選擇,不是「這個框架」vs「一個更完美的框架」,而是「有框架」vs「什麼都沒有」。沒有框架的世界長什麼樣?就是現在這樣:企業靠履歷上的關鍵字篩人,靠面試時的印象決策,卻完全無法分辨「會用 AI」和「能用 AI 一個人扛起整個團隊」之間的巨大落差。

能被量化的,才會被重視。不能的,就會隱形。

AI Collaboration Portfolio 是一次嘗試,讓隱形的變得可見。它是一張不完美的地圖:但替代方案不是一張更好的地圖,是蒙著眼睛在新大陸上狂奔。

目前的版本針對個人使用者。企業版,支援團隊儀表板、跨部門基準比較、以及招聘流程整合,是下一階段的開發方向。如果你的組織正在思考怎麼評估 AI 人才,歡迎從個人版開始體驗框架的邏輯。

免費評估你的 AI 協作等級:paulkuo.tw/tools/ai-collab-portfolio/


附錄:更多局限討論

適應力怎麼看? 適應力不是第六個維度,它是五個維度隨時間的進步速度。一個人的指揮力、交付力、產能乘數在 AI 工具迭代之間持續提升,他就是高適應力的。框架透過分數的時間軌跡來間接捕捉這件事,未來版本可以把自我迭代速度納為一級信號。

跨組織的標準化難度。 指揮力在軟體工程師身上有版本紀錄可以驗證,但在行銷總監或設計師身上怎麼衡量?不同產業、職能、組織規模對維度的定義可能天差地別。五個維度提供了觀察結構,但具體的量化指標和權重配置,必然需要依產業和職能做在地化校準。

公平性與可及性。 能取得最新 AI 工具的人,在這個框架裡天然佔有優勢。如果度量系統本身放大了數位落差,而非揭示真實能力,那它就失敗了。


附錄:更多質疑與回應

Q4:為什麼不加「適應力」和「倫理力」維度?

適應力不是獨立維度,而是五個維度隨時間的進步速度。一個人的 Command、Delivery、Leverage 分數在 AI 工具迭代之間持續提升,他就是高適應力的。同樣的邏輯適用於「反思迴路」,也就是用 AI 分析和優化自身工作模式的元技能。它表現為五個維度隨時間的上升軌跡,不是第六欄的靜態分數。倫理是底線約束,不是績效指標,違反倫理應該直接取消資格,而不是扣 15 分。

Q5:維度之間有因果關係,無法精確歸因。

承認。框架追求的是更豐富的觀察,不是數學上的精確切割。歸因模糊的地方,三層證據架構提供原始數據讓評估者自行判斷。這正是框架的設計意圖:它不取代人類判斷,它給人類判斷更好的材料。

Q6:作者拿自己當案例是倖存者偏差。

方法論上完全成立。一個框架的設計者當然會挑對自己有利的證據。回應不是否認偏差,而是讓偏差變得結構上不重要:案例中的每一項宣稱,都可以透過公開 URL、GitHub repo、或第三方分析 API 獨立驗證。這個案例的價值不是統計上的,而是工程上的。它提供一個完整、可檢視、可複製的藍圖,任何人都能用自己的數據跑一遍。初始版本難免反映創作者的脈絡,但它的價值取決於社群是否覺得值得 fork、攻擊、改進。


參考文獻

  1. Brooks, F. P. (1975). The Mythical Man-Month: Essays on Software Engineering. Addison-Wesley.
  2. Dakan, R. & Feller, J. (2025). “Framework for AI Fluency.” Ringling College of Art and Design / University College Cork. Version 1.5.
  3. Anthropic. (2026, January). “Anthropic Economic Index report: Economic primitives.” anthropic.com/research.
  4. Anthropic. (2026, March). “Anthropic Economic Index report: Learning curves.” anthropic.com/research.
  5. Anthropic. (2026, March). “Estimating AI productivity gains from Claude conversations.” anthropic.com/research.
  6. Anthropic. (2026, March). “Labor market impacts of AI: A new measure and early evidence.” anthropic.com/research.
  7. US Department of Labor. (2026, February). “AI Literacy Framework.”
  8. Alan Turing Institute / UK DSIT. (2025). “AI Skills for Business Competency Framework.” Version 3.
  9. UNESCO. (2026). “AI competency framework for students.” unesdoc.unesco.org.
  10. Schleiger, E. et al. (2025). “Generative AI in Human-AI Collaboration: Validation of the Collaborative AI Literacy and Collaborative AI Metacognition Scales.” Interacting with Computers. Taylor & Francis.
  11. Chee, K.N. et al. (2025). “A Competency Framework for AI Literacy.” British Journal of Educational Technology. Wiley.