AI 會在六年內超越人類智慧嗎？解構這個看似有理的猜想

2024 年的 AI 新聞充滿了「突破」。Anthropic 推出 Claude 3.5，OpenAI 發布 GPT-4o，Google 公佈 Gemini 2.0。每次發佈，評論者都會說：「AI 離 AGI 又近了一步。」

▶ 聽摘要

AI 合成語音・作者本人聲線克隆

然後 Elon Musk 推出 Grok-2，聲稱它在某些測試上超越了 GPT-4。輿論再次沸騰：是不是 AGI 已經來了？我們是不是還有不到六年的時間？

我想在這個時刻停下來，問一個簡單的問題：我們在測試什麼？

「超越」的幻覺

Grok-2 確實在某些標準化測試上的表現比 GPT-4 好。但這些測試是什麼？

它們主要是「基準測試」：MMLU（涵蓋數學、科學、歷史、法律等知識的測試）、HumanEval（程式碼生成）、GSM8K（數學推理）等。這些測試設計得很好，但它們測試的只是一種特定的、可量化的能力。

想像一下，如果我們用「能否贏得象棋比賽」來衡量人類智慧，那麼 Deep Blue 在 1997 年就已經「超越了人類智慧」。但沒人會這麼說。

原因是：象棋很複雜，但它是一個封閉系統。規則是固定的，目標是明確的，反饋是立即的。現實世界不是這樣。

AI 在基準測試上的進步，類似於深藍在象棋上的進步。它們都是在高度結構化、明確定義的問題上的優化。

人類智慧的三個維度

如果我們要談「超越人類智慧」，我們首先要定義人類智慧。

心理學家普遍承認，人類智慧有多個維度：

認知能力：解決問題、模式識別、邏輯推理
適應力：在新環境中學習和調整策略
價值判斷：理解什麼重要、什麼不重要，做出權衡決定

目前的 AI 在第一個維度上進步最快。Grok-2、GPT-4、Claude 都在認知測試上表現優異。

但在第二和第三個維度上，我們還遠遠不夠。

適應力的問題

Grok-2 能回答關於 2024 年世界杯的問題嗎？也許能，如果它的訓練數據包括了。

但如果明天世界杯賽制改了，賽事從夏季改到冬季，場地從地球改到月球，Grok-2 會怎麼辦？

它能不能自己發現這個變化，並迅速調整自己的理解？不能。

它只能等待新的訓練數據。而人類，看一場月球上的足球賽，就能立即理解新的規則，並開始思考新的策略。

價值判斷的問題

更深層的問題是價值。

Grok-2 可能能夠寫出一篇完整的關於氣候變化的論文。但它不知道，在所有的選擇中，哪一個對人類最重要。它不知道該優先考慮經濟增長還是環境保護。它不知道該聽誰的聲音。

人類智慧的核心，是能夠在不同的價值觀之間做出權衡。而這種權衡能力，目前的 AI 完全沒有。

六年時間表的數學

OK，但如果 AI 能力每年以某個速率提升，六年後不就能達到 AGI 了嗎？

這涉及到一個經典的誤解：指數增長。

很多人相信 AI 的發展是指數級的。摩爾定律、計算力的增長、數據集的擴大：都在推動 AI 加速。

但這有一個大問題：我們沒有無限的計算力，也沒有無限的數據。

目前，最大的 AI 模型已經達到了計算資源的瓶頸。訓練 GPT-4 需要數千億美元的投資。下一代模型可能需要更多。

同時，互聯網上已經被挖盡的文本數據是有限的。我們已經接近「數據飢荒」。

Google 最近發表的一項研究表明，大規模語言模型的性能提升速度已經在放緩。從 2020 年到 2024 年，改進率從每年 40% 放緩到每年 10% 左右。

如果這個趨勢繼續，而且沒有新的技術突破，那麼 AI 不會在六年內達到 AGI。可能需要更長時間：可能是十年，可能是二十年，也可能永遠無法達到。

Grok-2 真正的意義

Grok-2 的出現，意味著 AI 競爭激烈化了。X（前 Twitter）公司有資源和動力與 OpenAI 競爭。這可能會加速 AI 的某些方面的進展。

但 Grok-2 超越 GPT-4 在某些基準上，並不意味著它離 AGI 更近了。

它只意味著，在某個特定的測試中，Grok-2 的優化做得更好。

而 AGI，如果它確實存在，會是一個質的轉變：能自我改進、自我目標設定、真正理解人類價值觀，跟在 MMLU 上多得 2% 是不同層次的事。

結論：等待下一個突破

我說的是：基於目前的趨勢，六年的時間表過於樂觀。AGI 可能會來，但不是靠這樣算出來的。

AI 會繼續進步。但進步可能是 S 型曲線，而不是指數曲線。我們可能已經通過了快速增長階段，現在進入了平坦階段。

而真正的 AGI，可能需要一個新的技術突破：也許是新的算法、新的硬件、或者對智慧本身的新的理解。

在那之前，享受 AI 在特定任務上的進步就好。別讓一個測試分數，替代你對 AGI 的判斷。

項目	費用 (USD)	費用 (TWD)
EN 翻譯	$0.036	$1.16
EN 配音	$0.007	$0.24
JA 翻譯	未記錄（成本追蹤上線前）
JA 配音	$0.011	$0.37
ZH-CN 翻譯	未記錄（成本追蹤上線前）
ZH-CN 配音	$0.008	$0.27
封面圖	未記錄（成本追蹤上線前）
合計	$0.063	$2.04

AI 會在六年內超越人類智慧嗎？解構這個看似有理的猜想

「超越」的幻覺

人類智慧的三個維度

適應力的問題

價值判斷的問題

六年時間表的數學

Grok-2 真正的意義

結論：等待下一個突破

衍生自 5 篇素材

💬 留言討論

「超越」的幻覺

人類智慧的三個維度

適應力的問題

價值判斷的問題

六年時間表的數學

Grok-2 真正的意義

結論：等待下一個突破

衍生自 5 篇素材

訂閱新文章通知

💬 留言討論

延伸閱讀

把 Claude Cowork 變成你的總控台：一個人指揮多個平行視窗的工作流

後Fable5的協作思考：應該把難度當常數

當 AI 開始挑選它的使用者