智能與秩序

從「圖靈測試」到「愛因斯坦測試」:哈薩比斯給 AI 出的終極難題

Wiki 素材

摘要

2026年2月,Google DeepMind執行長哈薩比斯在印度新德里AI峰會提出「愛因斯坦測試」,要求AI僅基於1911年前的物理知識獨立推導廣義相對論,標誌AI評估標準的根本轉變。從圖靈測試的「像不像人」演進至愛因斯坦測試的「能否提出人類未想到的問題」,反映對AI能力的認知深化。哈薩比斯指出當前AI是「最強大的解題工具」,卻缺乏判斷「什麼問題值得解」的能力。AI能在數學奧林匹克奪牌卻在洗車問題上犯荒謬錯誤,揭示其能力參差不齊的本質。技術瓶頸在於機器無法精準刪除特定知識,導致愛因斯坦測試目前仍屬思想實驗層面。

重點

  • 圖靈測試衡量語言模仿,愛因斯坦測試衡量原創性框架構建,代表評估維度的根本轉變。
  • 當前AI缺乏判斷問題優先級的人類獨有能力,無法在理論框架失效時主動發現缺陷。
  • AI能力高度不均:數學奧林匹克級表現與洗車問題的邏輯缺陷並存,反映深層認知侷限。
  • 機器遺忘問題導致無法局部刪除訓練資料中的知識,使愛因斯坦測試實施受阻。
  • 愛因斯坦測試要求AI從現有理論框架獨立推導新知識,代表AGI的最高判定標準。

章節

  1. 圖靈測試到愛因斯坦測試的演進

    從1950年圖靈測試的語言模仿能力,經由諾貝爾圖靈挑戰的科學問題解決,到2026年愛因斯坦測試的原創性框架構建,AI評估標準經歷三階段根本轉變。

  2. 愛因斯坦測試的核心要求

    愛因斯坦測試要求AI僅基於1911年前的物理知識獨立推導廣義相對論,檢驗AI能否在理論框架失效時主動發現缺陷並構建全新認知體系。

  3. 從解題到出題的能力差異

    哈薩比斯認為當前AI最強於解題,但缺乏判斷「什麼問題值得解」的能力。這種判斷能力目前仍屬人類獨有,代表AGI的關鍵指標。

  4. AI能力的參差不齊與認知侷限

    AI在國際數學奧林匹克與高能物理中表現卓越,卻在洗車問題上犯荒謬邏輯錯誤,揭示當前AI的能力分佈高度不均,根本認知結構仍存侷限。

  5. 技術瓶頸:機器遺忘問題

    現有AI無法精準刪除特定訓練知識,導致知識如同「墨水滲透紙張」無法局部擦除,使愛因斯坦測試的實施受到根本技術制約。

金句

當前AI是『最強大的解題工具』,但『什麼問題值得解』的判斷能力仍屬人類獨有
愛因斯坦測試要求AI在現有理論框架失效時,主動發現框架缺陷並構建全新認知體系
AI能拿國際數學奧林匹克金牌,卻在『洗車問題』中建議走路去洗車店
現有AI無法精準刪除特定知識——訓練資料中的知識如同『墨水滲透整張紙』

被 2 篇文章引用 (含 6 個翻譯版本)

探索碰撞 ↗
動態牆知識圖譜關於搜尋聯絡我
EN
字級