智能與秩序

從「圖靈測試」到「愛因斯坦測試」：哈薩比斯給 AI 出的終極難題

Wiki 素材

摘要

2026年2月，Google DeepMind執行長哈薩比斯在印度新德里AI峰會提出「愛因斯坦測試」，要求AI僅基於1911年前的物理知識獨立推導廣義相對論，標誌AI評估標準的根本轉變。從圖靈測試的「像不像人」演進至愛因斯坦測試的「能否提出人類未想到的問題」，反映對AI能力的認知深化。哈薩比斯指出當前AI是「最強大的解題工具」，卻缺乏判斷「什麼問題值得解」的能力。AI能在數學奧林匹克奪牌卻在洗車問題上犯荒謬錯誤，揭示其能力參差不齊的本質。技術瓶頸在於機器無法精準刪除特定知識，導致愛因斯坦測試目前仍屬思想實驗層面。

重點

圖靈測試衡量語言模仿，愛因斯坦測試衡量原創性框架構建，代表評估維度的根本轉變。
當前AI缺乏判斷問題優先級的人類獨有能力，無法在理論框架失效時主動發現缺陷。
AI能力高度不均：數學奧林匹克級表現與洗車問題的邏輯缺陷並存，反映深層認知侷限。
機器遺忘問題導致無法局部刪除訓練資料中的知識，使愛因斯坦測試實施受阻。
愛因斯坦測試要求AI從現有理論框架獨立推導新知識，代表AGI的最高判定標準。

章節

圖靈測試到愛因斯坦測試的演進
從1950年圖靈測試的語言模仿能力，經由諾貝爾圖靈挑戰的科學問題解決，到2026年愛因斯坦測試的原創性框架構建，AI評估標準經歷三階段根本轉變。
愛因斯坦測試的核心要求
愛因斯坦測試要求AI僅基於1911年前的物理知識獨立推導廣義相對論，檢驗AI能否在理論框架失效時主動發現缺陷並構建全新認知體系。
從解題到出題的能力差異
哈薩比斯認為當前AI最強於解題，但缺乏判斷「什麼問題值得解」的能力。這種判斷能力目前仍屬人類獨有，代表AGI的關鍵指標。
AI能力的參差不齊與認知侷限
AI在國際數學奧林匹克與高能物理中表現卓越，卻在洗車問題上犯荒謬邏輯錯誤，揭示當前AI的能力分佈高度不均，根本認知結構仍存侷限。
技術瓶頸：機器遺忘問題
現有AI無法精準刪除特定訓練知識，導致知識如同「墨水滲透紙張」無法局部擦除，使愛因斯坦測試的實施受到根本技術制約。

金句

當前AI是『最強大的解題工具』，但『什麼問題值得解』的判斷能力仍屬人類獨有

愛因斯坦測試要求AI在現有理論框架失效時，主動發現框架缺陷並構建全新認知體系

AI能拿國際數學奧林匹克金牌，卻在『洗車問題』中建議走路去洗車店

現有AI無法精準刪除特定知識——訓練資料中的知識如同『墨水滲透整張紙』

被 2 篇文章引用（含 6 個翻譯版本）

AI 會在六年內超越人類智慧嗎？解構這個看似有理的猜想2025-07-13繁EN 日简
AGI 即將降臨：成為更完整的人類，才是最好的準備2025-06-09繁EN 日简

探索碰撞 ↗

摘要

重點

章節

金句

被 2 篇文章引用 （含 6 個翻譯版本）

被 2 篇文章引用（含 6 個翻譯版本）