2024 年的 AI 新聞充滿了「突破」。Anthropic 推出 Claude 3.5,OpenAI 發布 GPT-4o,Google 公佈 Gemini 2.0。每次發佈,評論者都會說:「AI 離 AGI 又近了一步。」
然後 Elon Musk 推出 Grok-2,聲稱它在某些測試上超越了 GPT-4。輿論再次沸騰:是不是 AGI 已經來了?我們是不是還有不到六年的時間?
我想在這個時刻停下來,問一個簡單的問題:我們在測試什麼?
「超越」的幻覺
Grok-2 確實在某些標準化測試上的表現比 GPT-4 好。但這些測試是什麼?
它們主要是「基準測試」:MMLU(涵蓋數學、科學、歷史、法律等知識的測試)、HumanEval(程式碼生成)、GSM8K(數學推理)等。這些測試設計得很好,但它們測試的只是一種特定的、可量化的能力。
想像一下,如果我們用「能否贏得象棋比賽」來衡量人類智慧,那麼 Deep Blue 在 1997 年就已經「超越了人類智慧」。但沒人會這麼說。
原因是:象棋很複雜,但它是一個封閉系統。規則是固定的,目標是明確的,反饋是立即的。現實世界不是這樣。
AI 在基準測試上的進步,類似於深藍在象棋上的進步。它們都是在高度結構化、明確定義的問題上的優化。
人類智慧的三個維度
如果我們要談「超越人類智慧」,我們首先要定義人類智慧。
心理學家普遍承認,人類智慧有多個維度:
- 認知能力:解決問題、模式識別、邏輯推理
- 適應力:在新環境中學習和調整策略
- 價值判斷:理解什麼重要、什麼不重要,做出權衡決定
目前的 AI 在第一個維度上進步最快。Grok-2、GPT-4、Claude 都在認知測試上表現優異。
但在第二和第三個維度上,我們還遠遠不夠。
適應力的問題
Grok-2 能回答關於 2024 年世界杯的問題嗎?也許能,如果它的訓練數據包括了。
但如果明天世界杯賽制改了,賽事從夏季改到冬季,場地從地球改到月球,Grok-2 會怎麼辦?
它能不能自己發現這個變化,並迅速調整自己的理解?不能。
它只能等待新的訓練數據。而人類,看一場月球上的足球賽,就能立即理解新的規則,並開始思考新的策略。
價值判斷的問題
更深層的問題是價值。
Grok-2 可能能夠寫出一篇完整的關於氣候變化的論文。但它不知道,在所有的選擇中,哪一個對人類最重要。它不知道該優先考慮經濟增長還是環境保護。它不知道該聽誰的聲音。
人類智慧的核心,是能夠在不同的價值觀之間做出權衡。而這種權衡能力,目前的 AI 完全沒有。
六年時間表的數學
OK,但如果 AI 能力每年以某個速率提升,六年後不就能達到 AGI 了嗎?
這涉及到一個經典的誤解:指數增長。
很多人相信 AI 的發展是指數級的。摩爾定律、計算力的增長、數據集的擴大——都在推動 AI 加速。
但這有一個大問題:我們沒有無限的計算力,也沒有無限的數據。
目前,最大的 AI 模型已經達到了計算資源的瓶頸。訓練 GPT-4 需要數千億美元的投資。下一代模型可能需要更多。
同時,互聯網上已經被挖盡的文本數據是有限的。我們已經接近「數據飢荒」。
Google 最近發表的一項研究表明,大規模語言模型的性能提升速度已經在放緩。從 2020 年到 2024 年,改進率從每年 40% 放緩到每年 10% 左右。
如果這個趨勢繼續,而且沒有新的技術突破,那麼 AI 不會在六年內達到 AGI。可能需要更長時間——可能是十年,可能是二十年,也可能永遠無法達到。
Grok-2 真正的意義
Grok-2 的出現,意味著 AI 競爭激烈化了。X(前 Twitter)公司有資源和動力與 OpenAI 競爭。這可能會加速 AI 的某些方面的進展。
但 Grok-2 超越 GPT-4 在某些基準上,並不意味著它離 AGI 更近了。
它只意味著,在某個特定的測試中,Grok-2 的優化做得更好。
而 AGI,如果它確實存在,會是一個質的轉變。不是在 MMLU 上多得 2% 的分數,而是能夠自我改進、自我目標設定、理解人類價值觀的 AI。
結論:等待下一個突破
我不是在說 AGI 永遠不會來。我只是在說,基於目前的趨勢,六年的時間表過於樂觀。
AI 會繼續進步。但進步可能是 S 型曲線,而不是指數曲線。我們可能已經通過了快速增長階段,現在進入了平坦階段。
而真正的 AGI,可能需要一個新的技術突破——也許是新的算法、新的硬件、或者對智慧本身的新的理解。
在那之前,我們應該享受 AI 在特定任務上的進步,同時保持警惕,不要被基準測試的數字迷惑。
超越人類智慧,不是一個數字遊戲。
💬 留言討論
載入中...