技術

Google AI 以幾百美元破解懸宕 56 年的數學難題

Susan Hill

Google DeepMind 的一套研究系統,為數學家 Paul Erdős 提出的九個未解難題給出了經機器核驗的完整證明,其中兩個已懸宕 56 年。同一套系統還了結了取自整數序列線上百科全書的 44 條猜想,關上一個開放 15 年的代數幾何問題,並改進了凸最佳化中一個已知的上界。引人注目的數字不如方法重要。這些證明每一個都由機器核驗過,而不只是由機器斷言。

Erdős 於 1996 年離世,留下數百個精確而頑固的問題,許多陳述簡單,卻極難了結。數十年間,它們成了這門學科的常設考卷。序列猜想來自一個公開資料庫,數學家在其中挖掘規律,一條猜出來的公式可能多年得不到證明。它們不是為了討好模型而設計的人造基準,而是開放數學真正積壓的難題。

這個區別就是全部要點。這套名為 AlphaProof Nexus 的系統,用形式語言 Lean 寫下論證,其編譯器會否決任何無法確認的步驟。一個證明要麼通過,要麼不通過,沒有空間留給那種聽來篤定、事後卻被發現出錯的段落。對想判斷某項 AI「發現」是否屬實的人來說,這正是新聞稿與結果之間的分界線。

在底層,證明器跑在 Gemini 3.1 Pro 之上,由一個更輕的模型負責排序。這個迴圈幾乎單調乏味。模型用 Lean 草擬證明,編譯器回傳錯誤,這些錯誤又匯入下一次嘗試。維繫誠實的是符號回饋,而非流暢的文字。團隊建了四個複雜度遞增的版本,其中一個能生成並排序彼此競爭的證明草圖。然而最簡單的版本,僅由模型與編譯器構成的迴圈,獨自解出了全部九個 Erdős 問題。

悄然驚人的是成本。每解出一個問題,計算時間只花幾百美元。曾耗盡職業生涯的問題,以一次週末出遊的價錢被關上。這並不會讓數學家退休。仍需要有人來挑選哪些問題值得攻克,把它們改寫成系統能讀的形式,並判斷一個答案意味著什麼。改變的,是「到底什麼值得一試」這筆帳。

保留意見比標題更重。在嘗試的 353 個 Erdős 問題中解出九個,命中率約為 2.5%。序列那邊的數字,492 中的 44,不到 9%。作者直言,這些問題大多仍遙不可及,需要大量新理論的更是如此,而成功集中在 Lean 數學庫已經深厚的領域。抽掉這具由人搭起的鷹架和精心挑選的目標清單,系統幾乎無處立足。

這份謹慎是應得的。在一樁被廣泛嘲笑的事件裡,一個競爭實驗室宣稱其模型解出了十個 Erdős 問題,直到數學家指出答案早已見於已發表的文獻。模型是找到了它們,而非證明了它們。AlphaProof Nexus 的設計正是為了對這種錯誤免疫。一個已知結果的 Lean 證明仍然有效,而某個真正新東西的 Lean 證明無法偽裝。掌舵 DeepMind 的 Demis Hassabis 特意強調,這項工作並非通用人工智慧。對一家鮮少對自家模型謙遜的公司而言,這是異常審慎的一筆。

研究者還強調了一個更微妙的收穫。連失敗也有用。由於每一步部分證明都經過形式核驗,數學家無需手動重核整個論證,就能精確看出系統能關上哪些子目標、關不上哪些。機器不再是神諭,而成了一個不知疲倦的合作者,亮出自己的工作,並指明難點仍藏在何處。

這一結果並非孤例。它與另一個競爭推理模型的宣稱幾乎同時出現,據稱那個模型推翻了離散幾何中一個約 80 年的 Erdős 猜想,這一發現由在職數學家加以完善並背書。兩個實驗室,兩種方法,一個倚靠形式核驗,另一個倚靠原始的推理鏈條,相隔數週抵達同一前沿。這場競爭,不再關乎聽來聰明的聊天機器人。

這項工作在本月發表的一篇論文中作了詳述,其方法依託開放工具,即 Lean 及其由社群建構的程式庫,因此外部團隊可以檢查並重跑這些證明,而不必輕信一篇公司部落格。DeepMind 沒有說明該系統是否會向公司以外的研究者開放。值得盯住的數字不是九,而是那 2.5% 會不會變成十,再變成二十。一旦那天到來,關於這些機器究竟為何而生的爭論,將不得不從頭開始。

討論

共有 0 則留言。