Google AI 以幾百美元破解懸宕 56 年的數學難題

Google DeepMind 的一套研究系統，為數學家 Paul Erdős 提出的九個未解難題給出了經機器核驗的完整證明，其中兩個已懸宕 56 年。同一套系統還了結了取自整數序列線上百科全書的 44 條猜想，關上一個開放 15 年的代數幾何問題，並改進了凸最佳化中一個已知的上界。引人注目的數字不如方法重要。這些證明每一個都由機器核驗過，而不只是由機器斷言。

Erdős 於 1996 年離世，留下數百個精確而頑固的問題，許多陳述簡單，卻極難了結。數十年間，它們成了這門學科的常設考卷。序列猜想來自一個公開資料庫，數學家在其中挖掘規律，一條猜出來的公式可能多年得不到證明。它們不是為了討好模型而設計的人造基準，而是開放數學真正積壓的難題。

這個區別就是全部要點。這套名為 AlphaProof Nexus 的系統，用形式語言 Lean 寫下論證，其編譯器會否決任何無法確認的步驟。一個證明要麼通過，要麼不通過，沒有空間留給那種聽來篤定、事後卻被發現出錯的段落。對想判斷某項 AI「發現」是否屬實的人來說，這正是新聞稿與結果之間的分界線。

在底層，證明器跑在 Gemini 3.1 Pro 之上，由一個更輕的模型負責排序。這個迴圈幾乎單調乏味。模型用 Lean 草擬證明，編譯器回傳錯誤，這些錯誤又匯入下一次嘗試。維繫誠實的是符號回饋，而非流暢的文字。團隊建了四個複雜度遞增的版本，其中一個能生成並排序彼此競爭的證明草圖。然而最簡單的版本，僅由模型與編譯器構成的迴圈，獨自解出了全部九個 Erdős 問題。

悄然驚人的是成本。每解出一個問題，計算時間只花幾百美元。曾耗盡職業生涯的問題，以一次週末出遊的價錢被關上。這並不會讓數學家退休。仍需要有人來挑選哪些問題值得攻克，把它們改寫成系統能讀的形式，並判斷一個答案意味著什麼。改變的，是「到底什麼值得一試」這筆帳。

保留意見比標題更重。在嘗試的 353 個 Erdős 問題中解出九個，命中率約為 2.5%。序列那邊的數字，492 中的 44，不到 9%。作者直言，這些問題大多仍遙不可及，需要大量新理論的更是如此，而成功集中在 Lean 數學庫已經深厚的領域。抽掉這具由人搭起的鷹架和精心挑選的目標清單，系統幾乎無處立足。

這份謹慎是應得的。在一樁被廣泛嘲笑的事件裡，一個競爭實驗室宣稱其模型解出了十個 Erdős 問題，直到數學家指出答案早已見於已發表的文獻。模型是找到了它們，而非證明了它們。AlphaProof Nexus 的設計正是為了對這種錯誤免疫。一個已知結果的 Lean 證明仍然有效，而某個真正新東西的 Lean 證明無法偽裝。掌舵 DeepMind 的 Demis Hassabis 特意強調，這項工作並非通用人工智慧。對一家鮮少對自家模型謙遜的公司而言，這是異常審慎的一筆。

研究者還強調了一個更微妙的收穫。連失敗也有用。由於每一步部分證明都經過形式核驗，數學家無需手動重核整個論證，就能精確看出系統能關上哪些子目標、關不上哪些。機器不再是神諭，而成了一個不知疲倦的合作者，亮出自己的工作，並指明難點仍藏在何處。

這一結果並非孤例。它與另一個競爭推理模型的宣稱幾乎同時出現，據稱那個模型推翻了離散幾何中一個約 80 年的 Erdős 猜想，這一發現由在職數學家加以完善並背書。兩個實驗室，兩種方法，一個倚靠形式核驗，另一個倚靠原始的推理鏈條，相隔數週抵達同一前沿。這場競爭，不再關乎聽來聰明的聊天機器人。

這項工作在本月發表的一篇論文中作了詳述，其方法依託開放工具，即 Lean 及其由社群建構的程式庫，因此外部團隊可以檢查並重跑這些證明，而不必輕信一篇公司部落格。DeepMind 沒有說明該系統是否會向公司以外的研究者開放。值得盯住的數字不是九，而是那 2.5% 會不會變成十，再變成二十。一旦那天到來，關於這些機器究竟為何而生的爭論，將不得不從頭開始。

標籤: 人工智慧, Google, Gemini, Paul Erdős, AlphaProof Nexus, Automated Theorem Proving