「逐日者」賽局:深入 Google 贏取 AI 未來的藍圖

憑藉一款全新的超強晶片,Google 正在挑戰 NVIDIA,助長了企業間的軍備競賽,並直面智能本身無法持續的能源成本。解決方案呢?答案簡直...不屬於這個世界。

Pictured: Third-generation Cooling Distribution Units, providing liquid cooling to an Ironwood superpod. Source: Google
Susan Hill
Susan Hill
科技版編輯。科學、程式設計,並且和這本雜誌的所有人一...

我們用來描述技術的語言往往充滿誤導,其設計是為了馴服和「教化」。我們聽說 Google 推出了一款新「晶片」。這是一個令人安心、耳熟能詳的詞。晶片,不過是一片可以握在手中的、毫無生氣的矽晶片方塊。

這座超級電腦採用模組化方式建構。 單一主機包含四顆 Ironwood 晶片,而一個裝滿主機的機櫃(rack)則構成一個包含 64 顆晶片的「立方體」(cube)。為了進一步擴展,這些立方體透過動態光學電路交換(Optical Circuit Switch, OCS)網路連接起來,使系統能將多達 144 個立方體連接成一個包含 9,216 顆晶片的「超級叢集」(superpod)。這種叢集規模的架構不僅是為了體積;它提供了 42.5 FP8 ExaFLOPS 的運算能力,並可存取 1.77 PB 的共享高頻寬記憶體。

要理解 Google 的造物,我們必須首先拋棄「獨立產品」的陳舊觀念。 真正的計算單位不再是處理器,而是資料中心本身。作為 Google 第七代張量處理單元(TPU),Ironwood 以「超級叢集」的形式存在——一個由 9,216 顆新晶片互連而成的單一、內聚的超級電腦。這種龐然大物般的架構並非由簡單的風扇冷卻,而是依賴於工業規模的「先進液冷解決方案」——一個在其 10 兆瓦(megawatt)功耗下,為驅散巨大廢熱而設的至關重要的循環系統。

作為參考,10 兆瓦約等於一座小城市或大型工廠的耗電量。 這就是現代人工智慧(AI)赤裸裸的「蠻力」規模。AI 不是飄渺、抽象的「雲端」。它是一種物理實體,一個重工業,它消耗原物料(在此即為行星規模的能源),以生產一種新的無形商品:合成智能。擁有 9,216 顆晶片的 Ironwood 叢集就是這個行業的新引擎,一個液冷巨獸,其存在的唯一目的,就是以迄今為止無法想像的規模進行思考。

這立即揭示了 21 世紀決定性技術的核心衝突。 這種能源消耗規模,一旦擴展到整個產業,本質上是不可持續的。這座 10 兆瓦的叢集是技術奇蹟,同時也是沉重的環境負債。AI 故事的下半場,就是一場試圖與這單一的根本事實相抗爭的搏鬥。

推論時代 (The Age of Inference)

在過去的十年裡,AI 的核心挑戰是「訓練」(Training)。這是一個高成本、高耗時的過程,需要向模型灌輸整個網際網路的數據,使其「學習」語言、邏輯和推理。但那個時代即將結束。新的前沿是「推論時代」(Age of Inference)——即模型在訓練完成後,持續進行的、大容量的、即時的「思考」過程。

每當 AI 回答一個問題、生成一張圖片,或「主動檢索並生成數據」時,它都在執行推論。正如 Google 自己所承認的,Ironwood 是其「首款專為推論而設計的加速器」。 這標誌著一個關鍵的市場轉變。這場戰爭不再僅僅是為了建構最大的模型,而是為了高效運行那些為 Google Gemini 等下一波「AI 代理(AI Agents)」提供動力所需的「大容量、低延遲的 AI 推論和模型服務」。

Google 的真正戰略在此刻顯露無遺。Ironwood 不是待售的產品,它是 Google「AI 超級電腦」(AI Hypercomputer)的基石組件。 這不僅是硬體,更是一個垂直整合的系統——硬體(Ironwood TPU 和新的基於 Arm 架構的 Axion CPU)與一套專有軟體堆疊(stack)進行了「協同設計」(co-designed)。

這個協同設計的技術堆疊就是 Google 的戰略護城河。 雖然它也提供對 PyTorch 等開源框架的「開箱即用」支援以吸引開發者,但該技術堆疊的真正優化是針對 Google 自己的 JAX 生態系。

  • XLA(加速線性代數)編譯器 扮演著關鍵的翻譯官角色,它將來自 JAX 和 PyTorch 等框架的高階程式碼轉換為可在 TPU 晶片上高效執行的指令。
  • **GKE(Google Kubernetes 引擎)的新「叢集控制器」(Cluster Director)**是整個系統的「管弦樂指揮」,這個軟體能將 9,216 顆晶片的超級叢集作為一個單一的、具彈性的單元進行管理,透過拓撲感知(topology awareness)實現智慧排程和故障自癒。
  • vLLM 的原生支援則最大化了推論的吞吐量——這是「推論時代」服務模型的關鍵。vLLM 利用高效的記憶體管理技術,允許開發團隊以最小的改動在 GPU 和 TPU 之間切換工作負載。

過去十年,NVIDIA 的霸主地位不僅建立在其 GPU 之上,更建立在其專有的 CUDA 軟體平台——一條開發者難以逾越的「護城河」之上。Google 的 AI 超級電腦,正是一次建立「圍牆花園」(walled garden)的直接嘗試。 透過為那些使用其技術堆疊的用戶提供卓越的「性價比」(performance-per-dollar),Google 正將自己定位為 AI 經濟的基礎「公共事業服務商」。它不像 NVIDIA 那樣賣「汽車」;它的目標是銷售驅動汽車的「電力」。

造王者與多雲戰爭

這項戰略的最終成效在 2025 年底得到了印證。 AI 領域的領導者、OpenAI 的主要競爭對手 Anthropic 宣布,將歷史性地擴大與 Google 的合作夥伴關係,承諾使用其 TPU 基礎設施(包括新的 Ironwood),規模驚人——「多達 100 萬個 TPU」。

這不是一次隨意的投資。這是一項價值「數百億美元」的交易,將在 2026 年為 Anthropic 帶來「遠超 1 吉瓦(Gigawatt)」的運算能力。 僅此一項交易,就足以證明 Google 長達十年、耗資數十億美元的自研晶片賭注是正確的。Anthropic 對此次豪賭的公開解釋是「卓越的性價比和效率」——這清晰地表明,Google 的垂直整合系統,已能為 NVIDIA 的統治地位提供一個極具說服力的經濟替代方案。

但故事還有一個關鍵轉折,它揭示了 AI 產業真正的權力動態。Anthropic 並非 Google 的專屬客戶。 在其公告中,Anthropic 小心翼翼地指出,亞馬遜網路服務(AWS)仍是其「主要的訓練夥伴和雲端服務供應商」。與 AWS 的合作建立在「雷尼爾計畫」(Project Rainier)之上,這是一個使用數十萬個 Amazon 自研 Trainium 2 加速器的大型叢集。該公司正在奉行一種「多元化策略」,巧妙地在 Google 的 TPU、Amazon 的 Trainium 和 NVIDIA 的 GPU 之間縱橫捭闔。

這不是優柔寡斷,這是一種高明的生存之道。洩露的數據顯示,Anthropic 在 AWS 上的運算成本就消耗了其營收的 88.9%。 這些 AI 實驗室的生死存亡,完全取決於能否壓低這筆天文數字般的開支。透過迫使巨頭們陷入這場競標戰爭,分析師估計,Anthropic 可能正以 30% 到 50% 的巨額折扣,來獲取其業務中最昂貴的運算資源。透過公開與 Google 和 Amazon 同時 合作,Anthropic 已將自己塑造成了「造王者」(Kingmaker)。 它迫使雲端巨擘們競相壓價,利用自己作為「戰利品」的地位,讓這些「超大規模(Hyperscaler)」服務商反過來補貼它們高昂的算力帳單。

這種動態已經從根本上改變了市場。最終的贏家將不是擁有最快晶片的人,而是擁有運算、功耗和成本最佳比例的人。「每瓦效能」(Performance-per-watt)不再是一個簡單的環保口號,它已成為整個產業最核心的戰略和經濟戰場。

新的矽晶泰坦:一個不安的寡頭聯盟

Ironwood 的推出是對 NVIDIA 的直接挑戰,但這個戰場早已擁擠不堪。這場 AI 軍備競賽正由一個新的矽晶泰坦寡頭聯盟主導,只有少數幾家擁有足夠資本和技術專長的公司,能為這場新的淘金熱製造「鏟子」。

  • 衛冕冠軍 (NVIDIA): NVIDIA 的 Blackwell 架構 GPU(B100 和 B200)及其前輩 H100 仍然是產業標準。它們的統治地位受到 CUDA 軟體護城河的保護,大多數 AI 研究者都依賴於此。
  • 王位覬覦者 (雲端巨擘 & AMD):
    • Amazon (AWS): 作為雲端服務商中自研晶片最成熟的玩家,AWS 採用了雙晶片戰略:「Trainium」用於高性價比的訓練,「Inferentia」用於高速、低成本的推論。這套策略由 AWS Neuron SDK 軟體層粘合,專為優化其自研晶片上的 PyTorch 和 TensorFlow 工作負載而設計。
    • Microsoft (Azure): 為了服務其關鍵夥伴 OpenAI 的龐大需求,Microsoft 開發了自家的「Maia 100」 AI 加速器,專為 ChatGPT 和 GPT-4 的工作負載而協同設計。Maia 100 是台積電 5 奈米節點上最大的處理器之一,功耗在 500W-700W 之間,同樣配備了自家的軟體堆疊。
    • AMD: NVIDIA 的傳統對手 AMD,正憑藉其 Instinct MI300X 加速器在效能上展開直接競爭,該晶片在記憶體容量(192GB)等關鍵指標上已與新一代晶片持平。

這場企業軍備競賽由三個簡單因素驅動:

  1. 成本: 設計自己的晶片是擺脫 NVIDIA「70% 中段」的利潤率和高昂定價的唯一途徑。
  2. 供應: 它提供了戰略獨立性,使企業免受長期困擾整個產業的 NVIDIA GPU 短缺問題的影響。
  3. 優化: 它允許企業追求 Google 那樣的「每瓦效能」優勢——一種為其特定軟體和雲端工作負載「協同設計」的完美晶片。

雲端巨擘們並不需要 殺死 NVIDIA。 他們只需要創造一個「足夠好」的、可行的內部替代方案。這就能實現市場的「商品化」,為客戶提供選擇,並迫使 NVIDIA 降低價格,從而為雲端巨擘們自己的資本支出節省數十億美元。

這種權力集中的規模是難以想像的。包括 Google、Meta、Amazon 和 Microsoft 在內的主要科技巨擘,僅在今年一年就準備斥資高達 3750 億美元用於建設資料中心和採購 AI 硬體。這個新市場的准入門檻高得令人望而卻步。這不是民主化,這是權力的鞏固。AI 革命的勝負手,將不取決於車庫裡的某個巧妙演算法,而是取決於那五家有能力建造這些 10 兆瓦「大腦」的巨型企業。

2025 年 AI 加速器對決

Google Ironwood (TPU v7): 類型:ASIC。最大 HBM (記憶體):192 GB HBM3e。最大記憶體頻寬:7.4 TB/s。關鍵擴展架構:9216 晶片超級叢集 (9.6 Tb/s ICI)。主要使用情境:推論與訓練。

NVIDIA Blackwell B200: 類型:GPU。最大 HBM (記憶體):192 GB HBM3e。最大記憶體頻寬:8 TB/s。關鍵擴展架構:NVLink 5 (1.8 TB/s)。主要使用情境:通用訓練與推論。

AMD Instinct MI300X: 類型:GPU。最大 HBM (記憶體):192 GB HBM3。最大記憶體頻寬:5.3 TB/s。關鍵擴展架構:8-GPU 環形連接。主要使用情境:通用訓練與推論。

AWS Trainium / Inferentia 2: 類型:ASIC。最大 HBM (記憶體):(Trn) N/A / (Inf2) 32 GB HBM。最大記憶體頻寬:(Inf2) N/A。關鍵擴展架構:AWS Neuron SDK / 叢集。主要使用情境:分離式:訓練 (Trn) / 推論 (Inf)。

Microsoft Maia 100: 類型:ASIC。最大 HBM (記憶體):64 GB HBM2E。最大記憶體頻寬:N/A。關鍵擴展架構:基於乙太網路的結構。主要使用情境:內部 (OpenAI) 訓練與推論。

晶片戰爭的陰影

Google、NVIDIA 和 Amazon 之間的企業戰爭,是在一個更龐大、更具決定性的衝突——即美中之間的地緣政治「晶片戰爭」——的陰影下進行的。

從智慧型手機到最先進的軍事系統,整個現代世界都建立在一條極其脆弱的供應鏈之上。台積電(TSMC)所在的台灣「矽盾」(Silicon Shield),生產著「全球約 90% 的最先進半導體」。 生產集中在台灣海峽這一「關鍵地緣政治引爆點」,是全球經濟最大的單一脆弱性。

近年來,美國已將這種依賴性武器化,實施「全面出口管制」,以「剝奪中國獲取……先進晶片的管道」,企圖減緩其技術和軍事崛起。作為回應,中國正「向其晶片製造雄心投入數百億美元」,加速其「軍民融合戰略」,不顧一切地尋求「半導體自給自足」。

這種追求的化身是像華為(Huawei)這樣的國家冠軍企業。其開發本土 AI 晶片(如昇騰 910C)的努力,對 NVIDIA 在中國的主導地位構成了直接挑戰。這種垂直整合,加上中國的「軍民融合戰略」,使得西方盟國越來越難以辨別中國供應鏈的哪些部分是可以安全接觸的。

這種全球不穩定性給科技巨擘帶來了生存風險。台灣的一場軍事衝突可能在一夜之間讓 AI 產業陷入停頓。與供應鏈的災難性崩潰相比,NVIDIA 的長期缺貨只是一個小麻煩。

從這個角度看,Google 的 Ironwood 不僅僅是一款競爭性產品;它更是一種「企業主權」(corporate sovereignty)的宣示。 透過設計自己的客製化晶片,Google、Amazon 和 Microsoft 等公司得以「減輕供應鏈風險」並「減少對第三方供應商的依賴」。他們掌握了智慧財產權,不再依賴於單一公司(NVIDIA)或單一的脆弱地區(台灣)。他們可以實現製造夥伴的多元化,確保自己的商業模式能在地緣政治衝擊中倖存下來。

企業軍備競賽和地緣政治競賽,現在是同一枚硬幣的兩面。 Google 和 Amazon 的巨額投資,實際上是在執行美國的產業政策。他們正在打造一個西方盟友技術領域的產業脊梁(即「Chip 4」聯盟),並拉開與中國本土解決方案(如華為昇騰 910C)之間的「技術距離」。

無法承受的運算之重

這又讓我們回到了那個 10 兆瓦的叢集。在企業和地緣政治野心的共同推動下,AI 軍備競賽正臨其物理極限。 「蠻力」擴張所帶來的環境代價是驚人的。

Anthropic 與 Google 的 TPU 交易涉及「超過 1 吉瓦」的電力。這相當於 100 個 Ironwood 叢集同時運行,或一座滿載核電廠的全部輸出功率——而這僅僅是為一家公司服務的。 而這家公司只是眾多公司中的一個。

一個「想法」的碳足跡正變得清晰得可怕。

  • 訓練一個大型 AI 模型可能會排放超過 62.6 萬磅(約 28.4 萬公斤)的二氧化碳,「大致相當於五輛美國汽車的終生排放量」。
  • 向 ChatGPT 這樣的人工智慧提一個問題,所消耗的能源是「一次典型 Google 搜尋的約 100 倍」。
  • 生成式 AI 產業的總能源足跡正在「指數級增長」,並已「相當於一個低收入國家的能源消耗」。

問題不僅在於能源。資料中心還在「吞噬」一種更有限的資源:水。 它們需要「巨量的水來進行冷卻」,給當地資源(通常是本已缺水的地區)帶來巨大壓力。據產業估計,資料中心每消耗一千瓦時(kWh)的能源,平均已需要消耗 1.7 公升的水。

包括 Google 在內的整個產業,都在試圖透過吹噓「效率」提升來轉移對這場危機的注意力。Google 聲稱,Ironwood 的「能效比 2018 年的第一代 Cloud TPU 高出近 30 倍」。然而,這只是在轉移視線。這是「傑文斯悖論」(Jevons Paradox)的一個典型例子:應用於稀缺資源的技術效率提升,並不會減少消耗,反而會因為使該資源更便宜、更容易獲得,而增加總消耗量。

Ironwood 的效率非但不能解決環境問題,反而是在加速問題。 它使得建構更大的模型和處理更多的查詢在經濟上和技術上都成為可能,從而將總能源消耗推向新高。整個產業「速度優先於安全和倫理」的競賽——這種草率已經導致了有據可查的失敗(例如 Google Gemini 自己的偏見輸出)——正在創造一場全球性的倫理危機,而環境破壞則成了資產負債表之外的巨大「外部性」成本。

這場倫理危機源於 AI 系統固化和放大人類偏見、威脅人權、以及透過虛假訊息操縱公眾輿論的潛力。 美國政府問責署(GAO)指出,即使有監控,這些被匆忙推向市場的系統仍然容易受到攻擊,從而產生事實錯誤或帶有偏見的內容。在這種「軍備競賽」的動態下,企業快速部署的目標壓倒了安全協議,在創新與責任之間製造了根本性的緊張關係。

終章:天空中的「逐日者」(Suncatcher)

Google 的工程師們並非對這個悖論視而不見。他們看到了能源消耗曲線。他們明白 AI 的「蠻力」擴張在地球上已觸及天花板。他們提出的解決方案,是對整個產業最完美、最超現實的隱喻。

這就是被稱為「逐日者計畫」(Project Suncatcher)的長期「登月型」研究計畫。

該計畫是:將 AI 資料中心發射到太空中。 這些「由太陽能驅動的小型衛星星座」,配備 Google 的 TPU 並透過「自由空間光通訊」相連,將被部署在「晨昏同步低地球軌道」(dawn-dusk sun-synchronous low-earth orbit)上。在那裡,它們將接收到「近乎持續的日照」來解決電力問題,同時,太空的真空環境將為「無需用水的冷卻」提供解決方案。

這不是幻想。Google 已經在粒子加速器中測試了其 Trillium 世代的 TPU,以模擬近地軌道的輻射環境,結果晶片「在沒有損壞的情況下倖存下來」。 與 Planet Labs 合作的原型發射計畫於 2027 年初進行。

「逐日者計畫」,不啻是坦承了在地球上的失敗。 它承認了整個產業所選擇的道路——一條由 Ironwood 這樣的 10 兆瓦大腦驅動的道路——在地球上是不可持續的。用 Google 自己的話來說,該計畫的目標是「最大限度地減少對地球資源的影響」,因為他們自己的發展藍圖所帶來的「環境負擔」已經變得過於沉重。

這是「技術崇高感」(technological sublime)的終極體現。這場追求神一般智能的 AI 軍備競賽,正在創造一個這樣的未來:我們自身好奇心的運算成本是如此高昂,以至於我們必須真正「逃離」地球才能維持它。 Ironwood 晶片是引擎,AI 超級電腦是工廠,晶片戰爭是陰影,而「逐日者計畫」則是逃生艙——一次絕望的、輝煌的、且在邏輯上無可挑剔的、向虛空的縱身一躍。

然而,這種邏輯也面臨著其自身深刻的技術和經濟挑戰。懷疑論者很快指出,太空並非神奇的散熱解方;它反而是「現存最好的絕熱體」。 太空資料中心無法被動冷卻,它需要與太陽能電池板尺寸相當的、巨大而複雜的散熱器。這些系統還必須應對極端的維護成本,以及不斷摧毀處理器的太空輻射——所有这些障礙,都使這個「逃生艙」成為了一場真正天文數字級別的賭局。

分享本文
尚無留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *