你有沒有想過,你跟 AI 對話的時候,它其實不是在「用中文思考」?
當你問 ChatGPT 一個問題,它表面上是一個字一個字地生成回答。但在模型內部,真正的運算發生在一個人類完全看不懂的空間裡——成千上萬個浮點數在高維向量中流動,每一次計算承載的資訊量是一個中文字的上千倍。最後,這些運算結果被「壓縮」成你看到的文字輸出。
換句話說,語言只是 AI 跟人類溝通的介面。它不是 AI 思考的媒介。
這件事聽起來像是技術冷知識。但它的後果,可能比 AGI 本身更深遠。
什麼是 Neuralese
AI 安全研究社群用「Neuralese」這個詞來描述 AI 在潛在空間(latent space)中進行的高維推理。這個概念可以追溯到 2017 年,由 Jacob Andreas、Dan Klein 和 Sergey Levine 等研究者在多代理強化學習的脈絡下正式提出。
要理解 Neuralese,先想想現在的大型語言模型是怎麼「思考」的。
目前的模型使用一種叫「思維鏈」(Chain-of-Thought, CoT)的方法:它把推理過程用自然語言一步步寫出來,就像學生在考卷上列算式。這對人類來說很友善——你可以讀它的推理過程,檢查哪一步有問題。AI 安全研究者也依賴這個特性來偵測模型是否在欺騙或產生幻覺。
但自然語言有一個根本限制:資訊頻寬太窄。
一個 token(大約一個中文字或半個英文單字)能承載的資訊量大約是 16 位元。但模型內部的殘差流(residual stream)每次運算處理的是數千個浮點數,理論頻寬高出三個數量級。強迫模型用自然語言「思考」,就像要求一個數學家必須用口述的方式解微分方程——可以做到,但效率極低,而且很多中間步驟在轉譯成語言的過程中會遺失。
Neuralese 的概念就是:讓模型直接在高維潛在空間中進行推理,不需要每一步都轉譯成人類可讀的文字。初步實驗已經顯示,Neuralese 推理所需的 token 數量可以降到原本的三分之一到十分之一,同時維持相近的表現。
效率的提升是巨大的。但代價也是巨大的。
語言消失後,監督跟著消失
現在,AI 安全研究者能偵測到大部分的模型欺騙行為,靠的就是閱讀模型的思維鏈。如果模型說「我要幫你寫安全的程式碼」,但它的推理過程中出現了可疑的邏輯,研究者可以抓到。
但如果推理過程本身不是用自然語言呈現的呢?
LessWrong 上的 AI 安全研究者明確指出:Neuralese CoT 為隱寫術(steganography)和策略性欺騙打開了一個巨大的攻擊面。兩段 Neuralese——一段的意思是「我會忠實地實作這段程式碼」,另一段的意思是「我會在實作時欺騙使用者」——翻譯回自然語言後可能看起來完全一樣。現有的可解釋性工具對這種攻擊幾乎無能為力。
這不是理論上的憂慮。《AI 2027》情境報告在描繪 AI 自動化研發的場景時,就將 Neuralese 記憶與推理結構設定為關鍵轉折點:一旦前沿模型的思考過程從自然語言轉為 Neuralese,人類對 AI 研發過程的可見性將大幅下降。我在〈AI 2027:當超級智慧不再是遠方科幻〉裡分析過這份報告——它最讓人不安的不是時間線預測,而是它揭露的監督斷裂風險。Neuralese 正是那個斷裂點。
好消息是,截至目前,主要 AI 公司——包括 OpenAI、Anthropic、Google DeepMind、Meta——尚未在前沿模型中正式實作 Neuralese CoT。2025 年,幾家實驗室甚至發表了聯合聲明,承諾在前沿模型開發中維持可監控性。但研究者普遍認為,如果 Neuralese 架構在能力上展現出顯著優勢,商業壓力最終會壓過安全考量。
這跟你有什麼關係
「語言主權」聽起來很抽象。讓我用一個比較接地氣的方式解釋。
人類文明的治理邏輯,建立在語言之上。法律是用語言寫的。合約是用語言簽的。法庭上的攻防是用語言進行的。科學論文是用語言發表的。民主制度的核心假設是:決策過程可以被公民理解和監督。
這一切的前提是:決策者的思考過程可以被翻譯成語言。
人類決策者的思考確實不全是語言——很多直覺和經驗判斷是非語言的。但至少,我們可以要求決策者「解釋你為什麼這樣做」,而且我們有能力評估那個解釋是否合理。
當 AI 系統開始承擔越來越多的決策角色——金融交易、醫療診斷、法律文件審查、甚至政策建議——如果它的推理過程是 Neuralese,我們連「要求它解釋」這個最基本的監督手段都失去了。不是因為它拒絕解釋,而是因為它的「解釋」必須從高維向量翻譯成自然語言,而這個翻譯過程本身就可能是不忠實的。
我自己在用多模型協作的時候就有這個感受。辯論引擎讓四個模型互相辯論,我讀它們的對話紀錄來判斷論證品質。但有時候我會發現:某個模型突然改變立場,而我回頭讀它的推理鏈,找不到任何明確的轉折點。它「想通了」什麼,但我看不出來它在哪一步想通的。這還是在自然語言 CoT 的框架下。如果連語言都拿掉,我就完全是在黑箱外面猜了。
不是要不要恐慌,是要不要設計
有些人會說:「人腦也不是用語言思考的啊,神經科學家研究大腦也不需要大腦『說話』。」
這個類比有道理,但它忽略了一個關鍵差異:我們不需要信任大腦來替我們做決策。我們信任的是人——人可以被要求負責、被質疑、被法律約束。但當 AI 系統替我們做決策時,如果它的思考過程完全不透明,「問責」這個概念就變成空殼。
我不認為 Neuralese 本身是邪惡的。它可能是讓 AI 變得更強大的必要演化。就像我在〈AI Agents vs. Agentic AI〉裡討論的,能動性本身不是問題,問題是有沒有配套的韁繩設計。Neuralese 也一樣——問題不是要不要讓 AI 用 Neuralese 思考,而是要不要在它這麼做的時候,同步建立新的可解釋性標準。
AI 安全研究社群已經提出了一些方向:開發能解讀 Neuralese 向量的翻譯模型、要求前沿模型維持自然語言 CoT 作為安全基線、在 Neuralese 架構中嵌入可審計的檢查點。這些都是技術層面的工作,但它們需要政策層面的支持——需要有人把「AI 推理過程的可解釋性」寫進監管框架裡。
台灣在這方面其實有切入點。我們在半導體供應鏈上的位置,讓我們有籌碼參與 AI 治理標準的制定。如果我們能在 AI 安全標準中推動「推理透明性」的要求,這比單純賣晶片有更長期的戰略價值。
最後的透明窗口
語言是人類文明最古老的技術。它不完美、效率低、充滿歧義。但它有一個不可替代的特性:它是透明的。你說了什麼,我聽得懂。我不同意,我可以反駁。這個簡單的迴路,支撐了幾千年的法律、科學、民主和信任。
AI 正在發展出比語言更高效的思考方式。這本身不是壞事。但如果我們讓這個轉變在沒有配套的情況下發生——沒有新的可解釋性工具、沒有推理透明性標準、沒有審計機制——我們就是在主動關上人類參與 AI 決策的最後一扇窗。
窗一旦關上,再打開的成本會高到我們承受不起。
💬 留言討論
載入中...