2024年のAIニュースは「ブレークスルー」で満ちている。AnthropicはClaude 3.5をリリースし、OpenAIはGPT-4oを発表し、GoogleはGemini 2.0を発表した。リリースのたびに、コメンテーターは言う。「AIはAGIに一歩近づいた。」

そして、Elon MuskはGrok-2をリリースし、特定のテストではGPT-4を上回ったと主張している。インターネットが再び爆発する:AGIはもう来たのか?6年以下の時間があるのか?

この瞬間に立ち止まって、簡単な質問をしたい:私たちは実際に何をテストしているのか?

「超える」の幻想

Grok-2確実に特定の標準化されたテストでGPT-4より良い性能を発揮する。でも、これらのテストとは何か?

それらは主に「ベンチマークテスト」である:MMLU(数学、科学、歴史、法律などの知識をカバー)、HumanEval(コード生成)、GSM8K(数学推論)など。これらはよく設計されたテストであるが、それらは一つの特定の、定量化可能な能力しか測定しない。

想像してみてください。「チェスの試合に勝つことができるか」によって人間の知能を測定すれば、Deep Blueは1997年に既に「人間の知能を超えていた」。でも誰もそう言わない。

なぜ?チェスは複雑だが、それは閉じたシステムである。ルールは固定され、目標は明確で、フィードバックは即座である。現実世界はそうではない。

ベンチマークの上でのAIの進歩は、チェスでのDeep Blueの進歩と類似している。両方とも、構造化された明確に定義された問題の最適化である。

人間の知能の3つの側面

「人間の知能を超える」について話すなら、まず人間の知能を定義する必要がある。

心理学者は普遍的に、人間の知能は複数の側面を持っていることを認識している:

  1. 認知能力:問題解決、パターン認識、論理推理
  2. 適応性:新しい環境での学習と戦略調整
  3. 価値判断:何が重要で何がそうでないかを理解し、トレードオフの決定を下す

現在のAIは最初の側面で最も急速に進歩している。Grok-2、GPT-4、Claudeはすべて認知テストで優れている。

しかし、2番目と3番目の側面では、まだ遙か遠い。

適応性の問題

Grok-2は2024年ワールドカップについての質問に答えることができるか?おそらく、訓練データに含まれていれば。

でも、もし明日ワールドカップのルールが変わったら?トーナメントが夏から冬に移った場合?地球から月に移った場合?

Grok-2はこの変化を自分で発見して、自分の理解を急速に調整できるか?いいえ。

それは新しい訓練データを待つことしかできない。人間は月でサッカーの試合を見ると、新しいルールを瞬時に理解し、新しい戦略を考え始める。

価値判断の問題

さらに深い問題は価値である。

Grok-2は気候変動に関する完全なエッセイを書くことができるかもしれない。しかし、すべての選択肢の中で、人類にとって最も重要なものが何かは知らない。経済成長を優先するべきか、環境保護を優先するべきかは知らない。誰の声を聞くべきかは知らない。

人間の知能のコアは、異なる価値観の間を移動する能力である。そして、この価値判断の能力は、現在のAIが完全に欠いている。

6年タイムラインの数学

しかし、AI能力が毎年ある率で改善されれば、6年後にはAGIに到達しないか?

これは古典的な誤解に関わる:指数関数的成長。

多くの人はAI開発が指数関数的であると信じている。ムーアの法則、コンピューティング電力の成長、データセットの拡張——すべてがAIの加速を推進している。

しかし、大きな問題がある。コンピューティング電力は無限ではなく、データも無限ではない。

現在、最大のAIモデルは計算リソースのボトルネックに達している。GPT-4の訓練には数千億ドルの投資が必要だった。次の世代はより多くを必要とするかもしれない。

一方、インターネット上の公開テキストデータは有限である。私たちは「データ飢饉」に近づいている。

Googleの最近の研究は、大規模言語モデルのパフォーマンス改善がすでに遅くなっていることを示している。2020年から2024年、改善率は年約40%から年約10%に遅くなった。

このトレンドが新しい技術的ブレークスルーなしに続けば、AIは6年以内にAGIに到達しない。数十年かかるかもしれない。あるいは決してそこに到達しないかもしれない。

Grok-2が本当に意味することは

Grok-2の登場は、AI競争が激しくなったことを意味する。X(旧Twitter)にはOpenAIと競争するリソースと動機がある。これはAIの特定の側面の進歩を加速するかもしれない。

しかし、Grok-2がいくつかのベンチマークでGPT-4を上回るということは、それがAGIに近いことを意味しない。

それは、その特定のテストで、Grok-2がより良く最適化されていることを意味するだけだ。

そして、AGI(真に存在するなら)は、質的な転換だろう。MMBUで2%多くのポイントを得るのではなく、自己改善でき、自分の目標を設定でき、人間の価値観を理解できるAI。

結論:次のブレークスルーを待つ

AGIが永遠に来ないと言っているのではない。現在のトレンドに基づいて、6年のタイムラインが楽観的すぎると言っているだけ。

AIは引き続き改善されるだろう。しかし、改善は指数関数曲線ではなくS字曲線に従うかもしれない。急速な成長段階は過ぎ、平坦な段階に入った可能性がある。

真のAGIは新しい技術的ブレークスルー、おそらく新しいアルゴリズム、新しいハードウェア、または知能自体の新しい理解が必要かもしれない。

それまで、特定のタスクでのAIの進歩を享受する必要があり、ベンチマーク数値に惑わされないように警戒する必要がある。

人間の知能を超えることは数値遊びではない。