要約 (TL;DR) — 人日は出席率を測定し、価値創造ではない。本文は AI Collaboration Portfolio 5 次元フレームワーク(Command / Delivery / Leverage / Quality / Influence)と 3 層の改ざん防止証拠構造を提案し、企業にとって初の検証可能な AI 人材評価方法を提供します。完全なケーススタディ付き。→ あなたの AI 協業レベルを無料で評価する

40 分で 15 人日分の仕事を完了:人日がまだ測定できることは何か?

もし 40 分間の深い思考が、従来の 15 人日に相当する成果を生み出すなら、我々は仕事を測定する方法がすでに時代遅れになっていないだろうか。


3 つの AI が同時に動いている。1 つは市場データを分析して市場進入戦略を生成し、もう 1 つはその戦略に基づいてバックエンドアーキテクチャを再設計してプロトタイプをデプロイし、もう 1 つは前 2 つの成果物を統合可能な運営計画に集約している。操作者が費やした時間は約 40 分である。問題を定義し、タスクを配分し、方向性をリアルタイムで修正し、最終成果の品質を監督した。終了時には、機能完備の製品プロトタイプ、市場進入戦略分析、および自動化運営計画が机上に揃っている。

従来の方法では、部門横断的な 5 人チームによる 3 日から 4 日の協業が必要だった。15 から 20 人日。

これは常態ではなく、境界線が極限まで押し出された後の縮図である。しかし、それが予兆する傾向は構造的である。AI が標準化されたタスクの実行ハードルを大きく低下させたとき、成果物を決定するものはもはや投入時間だけではなく、操作者がいかに問題を定義し、タスクを配分し、品質を監督するかになる。これは人間を不可視化することではなく、その役割を「作業員」から「キュレーター」へ昇格させることである。

では、「人日」はここで何を測定しているのか?時間を測定している。価値ではない。測定方法が現実に追いつかないとき、我々が測定するものは生産性ではなく、人が場所にいるかどうかだけである(出席率)。

Anthropic が 2026 年 1 月に公開した Economic Index は実証的な根拠を提供している。100 万件以上の Claude 会話を分析した結果、指示の品質と成果物の品質の相関係数は 0.92 であることが判明した。このデータの背後にある意味は深い思考に値する。AI 時代では、「問題定義能力」はすでに「最終的な績効」と同義である。大学レベルの理解力が必要なタスクでは AI の加速倍率は 12 倍。高校レベルでは 9 倍。

AI は均等に全員を強くするのではなく、指数関数的に能力格差を拡大する。

2 人の履歴書には同じく「AI ツールに精通」と書かれているかもしれないが、それは同じフレーズでありながら全く異なる 2 つの成果能力に対応している可能性がある。 1 人は週末に AI を使用して完全なフルスタックアプリケーションを ship でき、もう 1 人は複数ラウンドのプロンプトを実施し、多くの要約と NotebookLM のノートを生成しているかもしれないが、見かけは忙しそうでも、結果的に実際に使用可能な成果物がない。 問題は単なる能力格差そのものではなく、我々がこれまで、その格差を識別し、測定し、名付ける方法を持っていないということである。


工時がもはや成果物と等しくないとき、企業はどのように績効測定フレームワークを再構築するのか?

1975 年、コンピュータサイエンティストの Fred Brooks『The Mythical Man-Month』 を出版し、最もクラシックな洞察は「人月」という幻想を暴露することであった。人数と時間は決して交換可能な変数ではない。1 人追加するたびに、生産能力が増加するだけでなく、コミュニケーション、調整、統合のコストも同時に増加し、そうしたコストは本来期待されていた効率向上を吞み込むのに十分である。したがって、プロジェクトがすでに遅れているときに、より多くの人員を追加することは、通常、救済ではなく、より遅くなる原因となる。

Brooks が議論したのは人間のチームである。しかし AI 時代は反対の方向から彼の論点を検証した。AI は標準化されたタスクの協調ハードルを大きく低下させた。オンボーディングは不要、調整会議は不要、24 時間ノンストップで働き、切り替えコストはほぼゼロ。協調コストがゼロに近づくとき、並列実行は初めて本当に効率的になるが、「協調はコストが高い」という仮説に基づいて構築された度量衡は、同時にその意味を失う。

ある人は「注意時間」で人日に代わろうとしている。この概念は AI 協業における人間の認知投入を 4 つのカテゴリに分類している。起動注意力(曖昧なニーズを正確な指示に翻訳する)、監督注意力(AI の成果物をチェックしてリアルタイムで修正する)、統合注意力(複数の AI の分散出力を調整する)、孵化注意力(無意識の後ろ盾思考を沈澱させ、インスピレーションを催す)。

こうした分類は非常に有用であるが、「注意時間」本質的には投入側の指標である。それは多くの認知資源を投入したかを教えてくれるが、その資源が実際に何を生み出し、品質がどうであり、従来の方法と比較して実際にどれだけ価値を創造したかは教えてくれない。

現在の問題は、投入側には「注意時間」があり、マクロ側には Anthropic Economic Index があり、AI が米国労働生産性の年間増加率に約 1.0 パーセントポイント貢献するそれでも推定しているが、個人レベルの成果側、すなわち採用決定が行われるレベル、フリーランサーが評価されるレベルでは、ほぼ完全に空白のままである。

度量衡の真空は周辺部にではなく、中央に存在する。


世界中が AI リテラシーをテストしているのに、誰が個人的な成果物をテストするのか?

この空白は誰も気にしていないから存在するのではない。過去 2 年間、各国政府、国際組織、学術界は大量の AI 能力フレームワークを生産している。しかし、それらはすべて同一の問題に対処している。あなたは AI を使用できるのか?誰もこう問わない。あなたは AI を使用して何を成し遂げたのか?

Anthropic と Rick Dakan、Joseph Feller により開発された AI Fluency Framework は 4 つのコア能力を定義している。委任(Delegation)、記述(Description)、識別(Discernment)、勤勉(Diligence)。これはおそらく「AI を上手に使うとはどのようなことか」に最も近い答えである。しかし、それは良好な AI 協業の外観がどのようなものであるかを説明しており、それが何を生み出すのかを定量化しない。

Anthropic 自身の Economic Index は別の角度から切り込み、数百万件の実際の会話を分析して AI が労働生産性に与える影響を推定する。データは非常に価値があるが、それは国家経済のレベルで操作されており、あなたの会社の次回採用決定のレベルではない。

米国労働省 は AI Literacy Framework を発表し、英国 Turing Institute は『AI Skills for Business Framework』第 3 版を発表し、UNESCO は学生と教師のための AI 能力フレームワークを持ち、学術界も Collaborative AI Literacy と Collaborative AI Metacognition などのスケールを提案している。

フレームワークは多いが、それらはすべて同一のタイプの質問に答えている。あなたは AI を理解しているか。合理的に使用できるか。その限界を知っているか。言い換えれば、それらは知識をテストしているのであり、あなたの AI 知識は十分か。しかし企業が本当に知りたいのは績効である。あなたは AI を使用して実際に何を成し遂げたか、成果物の品質はどうか、従来の方法と比較して本当に何倍速くなったのか。

グローバル AI 能力フレームワーク配置図:左下象限にはリテラシー型フレームワークが密集し、右下象限(個人績効)はまだ空白

既存のフレームワークを 2x2 マトリックス上に配置すると(横軸は「リテラシー vs 績効」、縦軸は「個人 vs マクロ」)、左側は人で埋まっているのが見える(UNESCO、DOL、Turing、様々な学術スケール)、右上には Anthropic Economic Index がある。右下、個人レベル、績効ベース、検証可能な象限は空白である。

誰もが AI リテラシーをテストしている。誰も個人の AI 生産性をテストしていない。この記事はこのギャップを埋めるフレームワークを提案している。私が以前書いた AI 時代の能力格差 という記事と同じ線路上にある。その記事はギャップの存在について述べ、この記事はそれをどのように定量化するかについて述べている。


AI Collaboration Portfolio 5 次元モデル:あなたのチームが本当に必要とする人は誰か?

AI Collaboration Portfolio は 5 次元モデルであり、個人が AI 協業を通じて実際に成し遂げたものを測定する。設計原則。各次元には理論的根拠、定量化可能な指標、第三者から検証可能なデータソースがなければならない。

しかし、指標を見る前に、あなたが面接をしていると想像してみてください。対面した候補者が「私は AI をよく使える」と言ったとします。その言葉が真か偽かをどのように判定するか?

企業が 1 人が「本当に AI を上手に使えるか」を区別するために、実は 5 つのことだけを見る必要がある。彼は AI を正しい方向に指揮できるのか(指揮力)、彼は実際にどのような実質的な成果を提供したのか(交付力)、同じ時間に彼はどの程度の生産能力を拡大できるか(生産倍数)、成果物の品質は耐え得るか(品質力)、彼の方法は他の人に採用されたか(影響力)。

以下、1 つずつ展開する。

Command 指揮力(25%)|「問題を上手く聞けない人」を解決する

チーム内にこんな人がいないか。ツールはすべてインストールされ、アカウントはすべて開かれているが、出力はまだ自分で手動で行われている。問題はツールではなく、指揮である。Command が測定するのは、あなたが AI に正しいことをさせることができるかである。

Anthropic の研究は指示の品質と成果物の品質が極めて高い相関性を示している。言い換えれば、問題を上手く聞ける人は AI が彼のために成し遂げたものがより良い。高い指揮力の人は単に prompt を知っているだけでなく、再利用可能なワークフローを確立し、自動化パイプラインを設計し、曖昧なニーズを AI が実行できる正確なタスクに翻訳する。

検証方法。再利用可能なワークフロー数とシステム指示、自動化パイプライン数、AI ツール統合の広さ、複数ステップのタスク分解の複雑度。

Delivery 交付力(25%)|「AI について空論ばかりいう人」を解決する

会議では AI トレンドについてよく話すが、四半期末の総括では、実際に ship したのは何か?Delivery が測定するのはあなたが試したことではなく、あなたが上線したものである。

検証方法。バージョン履歴の頻度と量、運用中のサービスやツールの数、公開コンテンツの数、ゼロから本番までの完全プロジェクト数、コード品質指標。

Leverage 生産倍数(20%)|「人を増やしても動かない」ボトルネックを解決する

これが「40 分 vs 15 人日」の中核である。Leverage は企業が最も気にする質問に直接答える。この人がチームに参加した後、チームの生産倍数はどのくらいか?同じ認知投入で AI 協業を通じてどの程度生産能力を拡大したか?

検証方法。実際の認知投入 vs 従来の推定値の比率、並列プロジェクト数、AI ツール調度数、自動化カバレッジ。

Quality 品質力(15%)|「大量生産だが品質がない」リスクを解決する

AI が大量にコンテンツを生成できる時代に、品質のゲートキーパーはかつてない重要性がある。Anthropic の研究は、タスク成功率を計算に入れた後、生産性向上の推定値が約 3 分の 1 縮小することを発見した。つまり、「加速」の 3 分の 1 は実は品質割引である。Quality が測定するのは、あなたの成果物が検査に耐えるかどうかである。

検証方法。ユーザーまたはトラフィック数、システム安定性、品質管理メカニズム数(自動テスト、チェックプロセス、レビュー制度)、外部引用または共有回数。

Influence 影響力(15%)|「強者は複製できない」ジレンマを解決する

1 人がどれだけ強くても、方法がその人の頭の中だけに存在していれば、組織への価値は上限がある。Influence が測定するのは、あなたの方法が他の人に学習または採用されたかどうかである。これは個人貢献者から組織賦能者への転換であり、最高のレバレッジを持つ価値創造形式でもある。

検証方法。オープンソースプロジェクトのインタラクション数(stars、forks、contributors)、ワークフロー template の採用回数、教育コンテンツのリーチ人数、方法論の外部引用回数。

次元間の関係

率直に言えば。この 5 つの次元は完全に独立しているわけではない。高い品質(Quality)はしばしば影響力(Influence)の先行条件である。強力な自動化パイプライン(Leverage)それ自体が交付(Delivery)の形式である。これら 5 つの能力は孤立して存在するのではなく、相互に賦能する価値ループである。

これは設計機能であり、欠陥ではない。真実の価値創造はもともと多次元に交織している。財務報告書の収益、粗利益、純利益も因果関係がありますが、それだけの数字を見ないでしょう。なぜなら、各数字は異なる側面を明らかにするからです。5 つの次元は 5 つの観察レンズであり、5 つの独立変数ではない。目標はより豊かな観察であり、完璧な分解ではない。


Portfolio がスコアハック游戲になるのを防ぐには?

どの能力フレームワークでも最も一般的に疑問視されるのは、それがスコアハック游戲に堕ちないかどうかである。

この懸念は完全に成立している。Goodhart の法則はすでに指摘している。指標が目標になると、それはもはや良い指標ではない。どの定量化システムもこの法則から免除されない。本当に追求すべき質問は、それが改ざんされるかではなく、改ざんのコストが十分に高いか、操作が不採算になるほど高いかである。

AI Collaboration Portfolio は 3 層の証拠構造で対応している。

第一層。自動取得。 ユーザーが認可した後、システムは第三者プラットフォームからデータを直接引き出す。バージョン履歴、リポジトリ構造、自動化フローファイル、ウェブ分析、package ダウンロード数、social 指標を含む。これらのデータは独立したプラットフォームにより記録されており、ユーザーは改ざんできない。あなたの GitHub に数個の commit があれば、それは数個である。この層は Portfolio の「ハード証拠」の最低ライン。

第二層。構造化自己評価。 自動取得できない部分(並列プロジェクト数、従来の人日推定、AI ツール統合方法)は、構造化フォームガイダンスで記入される。各自己評価フィールドの横に「証拠リンク」フィールドがある。リンク付きは Evidenced とマーク、ない場合は Self-reported とマークされる。あなたの Portfolio を見ている誰もがこのマークを見ることができ、自分で信頼性を判定できる。

第三層。AI 検証。 ユーザーが認可した後、AI はリポジトリ構造とコードパターンを分析し、各次元のスコアを独立して提案する。AI 提案スコアとユーザー自己評価は並行して表示される。自己評価が 90 点でも AI が 50 点を提案すれば、この差は視覚的にマークされる。

3 つの層が協働する。自動データは改ざんできず、自己評価には透明な証拠マークがあり、AI は独立した参照を提供する。これはハッキングを根絶することではなく、ハッキングのコストを不採算になるほど高める。

より重要な点は、このフレームワークの最終防線は内部検証ではなく、外部現実にあるということである。Quality と Influence の 2 つの次元は、ユーザー制御範囲外のソースからの証拠を必要とする。ユーザー採用率、社会相互作用、顧客フィードバック、市場結果。チーム内は投票を示唆できるかもしれないが、市場に強制することはできず、オープンソースコミュニティの真実の採用を偽造することもできない。

このシステムは自動的に判決を下す機械ではなく、人材評価における「フォレンジック会計」に似ている。我々はもはや面接者の聞き心地の良い話を聞くのではなく、彼が残した digital evidence chain を監査し、彼が AI 協業でいかに問題を定義し、タスクを配分し、修正し、交付を達成したかを見る。


最も鋭い 3 つの質問と我々の対応

我々がこのフレームワークを複数モデル adversarial debate に投じ、3 ラウンドのストレステストを実施した。以下は最も有力な 3 つの攻撃と我々の対応。

Q1。AI は全体の証拠チェーンを偽造できる。

AI は地図を偽造できるが、その道を歩いた記憶は偽造できない。フレームワークに導かれた深い面接では、面接官が問う内容は「あなたは何をしたか」ではなく「あなたはどのように決定したか」である。その方法を放棄したのはなぜか。コストのトレードオフをどのように考慮したか。AI がエラーを起こしたときどのように処理したか。実際にやったことのある人は 3 層の追跡質問に答えられる。シナリオに従ったような人は 3 層目で崩壊する。

Q2。Leverage の基準(人日)はあなた自身が既に失効していると述べているもので、それを分母とすることは循環論証。

Leverage は固定ベースラインに対する静的倍率として解釈されるべきではない。その核心的価値は時間軸上の変化率である。つまり、あなたの進歩速度である。エンジニアが 2024 年に GPT-4 で 10 倍のレバレッジを達成し、2026 年にはより強力なモデルを使用しても 10 倍のままであれば、それ自体が適応力の停滞を露呈している。AI ツールは進化し、ベースラインは動き、本当に予測力を持つのは各パラダイムシフトに適応する速度であり、特定の時点の絶対値ではない。

Q3。フレームワークは個人に焦点を当てるが、AI 時代の最高の価値提供はしばしば共有認知資産。

これは現在のバージョンの真実の限界。1 人が Prompt 指示ライブラリ全体のチームで使用できるように構築し、全員の効率を 2 倍にするワークフローを設計した。このネットワーク効果は確かに個人次元で完全に捕捉できない。Influence 次元は部分的に対応するが、十分ではない。チーム版フレームワーク、個人の生産能力だけでなく、全体システムの生産能力をいかに拡大するかを測定するのは、次の段階で最も重要な進化方向である。

💡 より多くの質疑と対応。 「適応力と倫理次元を追加しない理由」、「次元間の因果帰因」、「著者が自分をケースとするのは生存者バイアスか」などの 3 つの延長質問については、文末の 附録 を参照。


ケーススタディ検証。1 人はどのように 8 つのプロジェクトを同時に実行するのか?

フレームワークの実際の操作可能性を検証するため、著者自身のデータで 1 回実行した。以下のすべてのデータは公開検証可能。

スコアを項目ごとに列挙するのではなく、フレームワークの診断力を最も体現する 3 つの対比を見るのが良い。

対比一。4 言語コンテンツシステム。 著者の個人ウェブサイト paulkuo.tw は 80 以上の記事を蓄積しており、それぞれ繁体中文、英語、日語、簡体中文の 4 つの言語版を提供し、単一の commit により自動翻訳パイプラインにより生成される。これは Delivery(どの程度のコンテンツを交付したか)だけでなく、Command(あなたが AI にこれを行わせるプロセスを設計できるか)を反映している。従来の方法。4 人の翻訳者、1 人の編集者、1 人のプロジェクトマネージャー。

対比二。分野横断的同時戦闘。 8 つ以上のアクティブプロジェクトを同時に維持し、ソフトウェア開発、コンテンツ発行、e コマース運営、エンタープライズコンサルティングにまたがり、完全に異なる分野をカバーする。Timing App の時間追跡データはウェブサイトの real-time ダッシュボードに統合されており、実際の認知投入時間を提供する。これは Leverage(生産倍数)の直接的体現。従来の方法では、これには 5 から 8 人のチームが必要。

対比三。最も弱い次元が何を述べたのか。 著者の Influence スコアは全体で最も低い。オープンソースプロジェクトは存在するが社会相互作用は限定的で、social media は活躍しているが規模がまだ不十分で、重要な講演と外部引用はほぼゼロ。フレームワークの診断価値がここで最も明らかである。それは単に強みを検証するのではなく、不快な精度で次のステップが何かを教えてくれる。

より重要な観察はスコア自体ではなく、証拠の性質である。上記のどの宣言も、公開 URL、GitHub repo、またはウェブサイト分析 API により独立して検証可能である。何の宣言も自己申告だけに頼っていない。これがこのフレームワークとすべての questionnaire 型評価の根本的な差。証拠はシステムの外部に存在する。

フレームワークの設計者が自分をケースとするのは当然、選択バイアスがある。しかし、このケースの価値は統計的なものではなく、工学的なもの。完全で検査可能で複製可能な blueprint であり、誰もが自分のデータで走らせることができる。あなたのチームも可能。それを open source release と考え、臨床試験ではなく。


AI 生産性度量をしない代価。能力格差は静かに拡大している

なぜこれが重要なのか?度量をしない代価は、誤って度量する代価より大きいから。

Anthropic Economic Index はいわゆる deskilling effect を記録している。AI は仕事の高技能構成を優先的に引き継ぎ、低技能部分を残す。AI 協業に本当に長けた人が識別できなければ、高能力者は系統的に過小評価され、面接では良好だが実際の成果物が貧弱な人が過大評価される。

生産性格差は真実であり、拡大している。大学レベルのタスクは AI により 12 倍に加速される、高校レベルでは 9 倍。これはランダムに長時間蓄積される小さな格差ではなく、構造的分岐である。そして現在、労働市場に完全に不可視であり、それを表示させることができる度量衡システムが存在しないから。

このフレームワークにも限界があり、3 つの最も重要な限界は率直に認められる。

個人 vs システム価値。 フレームワークは個人の成果物を測定するが、AI 時代の真に高い価値の提供は、しばしば共有認知資産である。整個部門が使用している Prompt ライブラリ、全員を加速させる自動化フロー。人がシステム生産能力をどのように拡大するかを測定し、彼自身の生産だけでなく、は下一段階で最も重要な拡張方向である。

デジタル足跡のプライバシー境界。 3 層の証拠構造の第一層は自動取得だが、「自動」と「監視」の間の線は、データ制御権を誰が握っているかに依存する。従業員の自主的な認可で、Portfolio が個人所有である場合、それは権限付与ツール。企業が強制配備、マネージャーが一方的にアクセスする場合、新時代のタイムクロックになる。技術構造は最初から個人側にデータ所有権を lock する必要があり、さもなくば Portfolio は新しい監視に堕ちる。

B2B 報価の商業現実。 フレームワークは企業内でどのように人才を評価するかを変えられるが、市場がどのように買うかは変えられない。多くの甲方の採購プロセスはまだ「人日報価表」に固く結び付けられている。あなたは Portfolio で 40 分で 15 人日のことを完了することを証明できるが、甲方のシステムにはこのような非線形出力を記入する欄がない。企業内部の人才評価は先行できるが、このフレームワークが本当に人日計価に取って代わるには、全体の商業生態の計価慣例が一緒に転換する必要がある。これはツール 1 つで解決できる問題ではなく、時間が必要な産業共識である。

💡 より多くの限界討論。 適応力の捉え方、跨組織標準化の難しさ、公平性とアクセス可能性などについては、文末の 附録 を参照。

これらは隠すべき欠陥ではなく、下一輪の iteration 研究方向。

しかし忘れないで。我々が直面する選択肢は「このフレームワーク」 vs「より完全なフレームワーク」ではなく、「フレームワークあり」 vs「何もない」。フレームワークなしの世界はどのように見えるか?今のままである。企業は履歴書のキーワードで人をフィルタリングし、面接時の印象で決定し、「AI を使える」と「AI を 1 人でチーム全体を支える」という巨大な落差をまったく識別できない。

定量化できるものだけが重視される。できないものは隠形される。

AI Collaboration Portfolio は試み、隠形なものを可視化すること。それは不完全な地図。代案は、より良い地図ではなく、新大陸で目を閉じて狂奔すること。

現在のバージョンは個人ユーザーを対象。Enterprise version、チーム dashboard サポート、部門間ベンチマーク比較、および採用フロー統合は、下一段階の開発方向。組織が AI 人才をどのように評価するかを考えている場合、個人版から始めてフレームワークのロジックを体験することをお勧め。

あなたの AI 協業レベルを無料で評価する:paulkuo.tw/tools/ai-collab-portfolio/


附録。より多くの限界討論

適応力をどのように見るのか? 適応力は 6 番目の次元ではなく、5 つの次元の時間経過による進歩速度である。人の指揮力、交付力、生産倍数が AI ツール iteration 間で継続的に向上する場合、その人は高い適応力を持つ。フレームワークはスコアの時間軌跡を通じてこれを間接的に捕捉し、将来のバージョンは自己 iteration 速度を 1 級信号として含める可能性がある。

跨 organization の標準化の難しさ。 指揮力は software engineer 身上でバージョン記録により検証できるが、marketing director や designer 身上でどのように測定するか?異なる業界、職能、organization 規模は次元の定義が大きく異なる可能性がある。5 つの次元は観察構造を提供するが、具体的な定量化指標と weight configuration は、業界と職能に応じた localization calibration が必須。

公平性とアクセス可能性。 最新の AI ツールにアクセスできる人は、このフレームワークで自然なアドバンテージを持つ。度量衡システム自体が digital divide を拡大するのではなく、真実の能力を明らかにする場合、失敗である。


附録。より多くの質疑と対応

Q4。なぜ「適応力」と「倫理力」次元を追加しないのか?

適応力は独立した次元ではなく、5 つの次元の時間経過による進歩速度である。人の Command、Delivery、Leverage スコアが AI ツール iteration 間で継続的に向上する場合、その人は高い適応力を持つ。同じロジックが「reflection loop」に適用される。つまり、AI を使用して自身の work mode を分析・最適化する metaskill。それは 5 つの次元の時間軸上の上昇軌跡として表現される。静的スコアではない。倫理は bottom-line constraint で、績効指標ではない。倫理違反は分数を差し引くべきではなく、直接資格を取り消すべき。

Q5。次元間に因果関係があり、精確に帰因できない。

認める。フレームワークの追求は、より豊かな観察で、数学的に精確な分割ではない。帰因が曖昧な場所では、3 層の証拠構造が原始データを提供し、評価者が自分で判定できるようにしている。これが framework の設計意図:それは人類の判定を置き換えるのではなく、人類の判定によりよい資料を提供。

Q6。著者が自分をケースとするのは生存者バイアス。

方法論上完全に成立。フレームワークの設計者は当然、自分に有利な証拠を選ぶ。対応は偏差を否定することではなく、偏差を構造的に重要でなくすること。ケーススタディの個々の宣言は、公開 URL、GitHub repo、または第三者分析 API を通じて独立して検証可能である。ケースの価値は統計的ではなく、工学的。完全で検査可能で複製可能な blueprint を提供し、誰もが自分のデータで走らせることができる。初期バージョンは必然的に creator のコンテキストを反映するが、その価値は community がそれを fork、攻撃、改善する価値があると感じるかどうかにかかっている。


参考文献

  1. Brooks, F. P. (1975). The Mythical Man-Month: Essays on Software Engineering. Addison-Wesley.
  2. Dakan, R. & Feller, J. (2025). “Framework for AI Fluency.” Ringling College of Art and Design / University College Cork. Version 1.5.
  3. Anthropic. (2026, January). “Anthropic Economic Index report: Economic primitives.” anthropic.com/research.
  4. Anthropic. (2026, March). “Anthropic Economic Index report: Learning curves.” anthropic.com/research.
  5. Anthropic. (2026, March). “Estimating AI productivity gains from Claude conversations.” anthropic.com/research.
  6. Anthropic. (2026, March). “Labor market impacts of AI: A new measure and early evidence.” anthropic.com/research.
  7. US Department of Labor. (2026, February). “AI Literacy Framework.”
  8. Alan Turing Institute / UK DSIT. (2025). “AI Skills for Business Competency Framework.” Version 3.
  9. UNESCO. (2026). “AI competency framework for students.” unesdoc.unesco.org.
  10. Schleiger, E. et al. (2025). “Generative AI in Human-AI Collaboration: Validation of the Collaborative AI Literacy and Collaborative AI Metacognition Scales.” Interacting with Computers. Taylor & Francis.
  11. Chee, K.N. et al. (2025). “A Competency Framework for AI Literacy.” British Journal of Educational Technology. Wiley.