比Opus 4.6低兩分卻便宜五倍：Gemini 3.5 Flash重寫了這道帳

Google在週一以每百萬輸入token 1.5美元、每百萬輸出token 9美元的價格推出了Gemini 3.5 Flash。新模型維持每秒280個以上的輸出token，沿用與前代相同的百萬級token上下文視窗，在Artificial Analysis Intelligence Index上落到55分，比Gemini 3 Flash高出9分。到週二上午，一篇r/Anthropic的串文已經把圖表並排擺在Claude Opus 4.6旁邊，提出了這個市場繞了六個月的問題：到哪個點上，基準測試兩分的領先不再值得五倍的價格？

Intelligence Index把推理、知識、編碼、數學和代理任務完成的一籃公開評測，匯總成1到100的單一分數。自適應推理模式下的Claude Opus 4.6停在57。5月19日發布的Gemini 3.5 Flash停在55。版本間九分的跳躍，是Flash在單一世代裡記錄的最大單步進步，大到足以讓新模型在原始智能上追平Anthropic上一代的Sonnet，但價格只是Sonnet的一小部分。

Reddit串文用的「更聰明」框架，把差距朝Flash這邊拉得過開了。在純Intelligence Index上，Opus 4.6仍然領先兩分。把串文炸開的那張圖，不是孤立的Intelligence Index。它是智能效率對成本的視圖，那條軸在做另一份工作；在那裡，Flash 3.5不只是贏過Opus 4.6，它停在了附近沒有別人的等級裡。

Opus 4.6每百萬輸入token要價約6.25美元，每百萬輸出25美元。Flash要價1.5和9。對一份輸出與輸入二比一的聊天負載，實際價格比更接近4.5倍，而不是串文標題裡那個圓整的「五倍」。這種取整是誠實的。速度讓旗艦的畫面更難看：Flash 3.5每秒維持280個以上的輸出token，而Opus 4.6在最大努力推理模式下，在同一套基準上跑得只有這速度的大約十分之一。對於使用者盯著游標的那類產品 — 編碼助手、客服代理、任何互動流程 — 延遲是一項價格買不回來的功能。

一年前，買最貴那台模型的論點一行就夠。下一檔的品質躍升夠大，價差只是相對於交付價值的一個四捨五入誤差。串文貼上來的那張圖，是另一張圖。最後兩個智能分的邊際成本，已經變成生產負載的整個定價決定，四捨五入誤差現在更接近每花六美元裡就有4.75美元。

把Opus 4.6留在技術棧裡仍有乾淨的理由。幾百頁的長上下文推理；錯誤逐步累積的代理迴圈；匯總分上兩分差距背後藏著大得多的任務級優勢的文件分析。當失效模式是「答案錯了」而不是「答案遲了」時，Opus仍然是工程師會回去找的模型。看起來是這種形態的生產負載份額在縮。它不是零，而是每百萬25美元為自己賺薪水的那一段。

推動大部分可計費token的聊天回合 — 起草、摘要、分類、翻譯、程式碼自動補全、面向客戶的推理 — 全都在Flash的射程內。工程團隊每一季問的問題，已經不是「哪一台模型最好」。而是「在可接受的延遲下，每一美元哪一台模型給得最多」。第二個問題，Flash現在以一個不需要細膩解讀的差距贏下。

串文裡的二級框架，「到處都有共識Opus 4.6比4.7好」，值得溫和的對待。它是軼事。Anthropic最近兩個Opus版本在程式碼評測和工具使用嚴謹度上獲得分裂的回饋，有團隊回報4.7在長代理迴圈上出現回退，也有團隊回報在相同負載上獲得乾淨的勝利。當行為在小版本之間於多個維度被調整時，兩種觀察可以同時為真。兩個模型在公開指數上還相距不到一分，所以社群的分裂更像口味之爭而非能力之爭。不在爭論之內的是，兩個Opus中任何一個的價格都沒動。

Reddit對話裡更深的訊號，是使用者沒在爭的東西。串文裡沒有人在原則層面替Opus的價格辯護。冒出來的辯護是負載特定的。「Opus在我這條代理迴圈裡還在贏我」。「Opus留在我們的文件審閱pipeline裡」。它們都是真的，但是負載辯護，不是旗艦辯護。旗艦應該在頻譜上贏，不只是在某一條車道上。

智能差兩分。價格五倍。反方向上速度六倍。百萬級token的上下文視窗，每百萬輸入1.5美元。多模態輸入，代理任務Elo超過1650，快取輸入九折。Anthropic下個季度的回應會講它自己的故事。2026年5月更難寫的，是業務人員要帶進客戶會議的那段論點。

標籤: 人工智慧, Google, tech-en1, Anthropic, Artificial Analysis, Claude Opus 4.6