技術

比Opus 4.6低兩分卻便宜五倍:Gemini 3.5 Flash重寫了這道帳

Susan Hill

Google在週一以每百萬輸入token 1.5美元、每百萬輸出token 9美元的價格推出了Gemini 3.5 Flash。新模型維持每秒280個以上的輸出token,沿用與前代相同的百萬級token上下文視窗,在Artificial Analysis Intelligence Index上落到55分,比Gemini 3 Flash高出9分。到週二上午,一篇r/Anthropic的串文已經把圖表並排擺在Claude Opus 4.6旁邊,提出了這個市場繞了六個月的問題:到哪個點上,基準測試兩分的領先不再值得五倍的價格?

Intelligence Index把推理、知識、編碼、數學和代理任務完成的一籃公開評測,匯總成1到100的單一分數。自適應推理模式下的Claude Opus 4.6停在57。5月19日發布的Gemini 3.5 Flash停在55。版本間九分的跳躍,是Flash在單一世代裡記錄的最大單步進步,大到足以讓新模型在原始智能上追平Anthropic上一代的Sonnet,但價格只是Sonnet的一小部分。

Reddit串文用的「更聰明」框架,把差距朝Flash這邊拉得過開了。在純Intelligence Index上,Opus 4.6仍然領先兩分。把串文炸開的那張圖,不是孤立的Intelligence Index。它是智能效率對成本的視圖,那條軸在做另一份工作;在那裡,Flash 3.5不只是贏過Opus 4.6,它停在了附近沒有別人的等級裡。

Opus 4.6每百萬輸入token要價約6.25美元,每百萬輸出25美元。Flash要價1.5和9。對一份輸出與輸入二比一的聊天負載,實際價格比更接近4.5倍,而不是串文標題裡那個圓整的「五倍」。這種取整是誠實的。速度讓旗艦的畫面更難看:Flash 3.5每秒維持280個以上的輸出token,而Opus 4.6在最大努力推理模式下,在同一套基準上跑得只有這速度的大約十分之一。對於使用者盯著游標的那類產品 — 編碼助手、客服代理、任何互動流程 — 延遲是一項價格買不回來的功能。

一年前,買最貴那台模型的論點一行就夠。下一檔的品質躍升夠大,價差只是相對於交付價值的一個四捨五入誤差。串文貼上來的那張圖,是另一張圖。最後兩個智能分的邊際成本,已經變成生產負載的整個定價決定,四捨五入誤差現在更接近每花六美元裡就有4.75美元。

把Opus 4.6留在技術棧裡仍有乾淨的理由。幾百頁的長上下文推理;錯誤逐步累積的代理迴圈;匯總分上兩分差距背後藏著大得多的任務級優勢的文件分析。當失效模式是「答案錯了」而不是「答案遲了」時,Opus仍然是工程師會回去找的模型。看起來是這種形態的生產負載份額在縮。它不是零,而是每百萬25美元為自己賺薪水的那一段。

推動大部分可計費token的聊天回合 — 起草、摘要、分類、翻譯、程式碼自動補全、面向客戶的推理 — 全都在Flash的射程內。工程團隊每一季問的問題,已經不是「哪一台模型最好」。而是「在可接受的延遲下,每一美元哪一台模型給得最多」。第二個問題,Flash現在以一個不需要細膩解讀的差距贏下。

串文裡的二級框架,「到處都有共識Opus 4.6比4.7好」,值得溫和的對待。它是軼事。Anthropic最近兩個Opus版本在程式碼評測和工具使用嚴謹度上獲得分裂的回饋,有團隊回報4.7在長代理迴圈上出現回退,也有團隊回報在相同負載上獲得乾淨的勝利。當行為在小版本之間於多個維度被調整時,兩種觀察可以同時為真。兩個模型在公開指數上還相距不到一分,所以社群的分裂更像口味之爭而非能力之爭。不在爭論之內的是,兩個Opus中任何一個的價格都沒動。

Reddit對話裡更深的訊號,是使用者沒在爭的東西。串文裡沒有人在原則層面替Opus的價格辯護。冒出來的辯護是負載特定的。「Opus在我這條代理迴圈裡還在贏我」。「Opus留在我們的文件審閱pipeline裡」。它們都是真的,但是負載辯護,不是旗艦辯護。旗艦應該在頻譜上贏,不只是在某一條車道上。

智能差兩分。價格五倍。反方向上速度六倍。百萬級token的上下文視窗,每百萬輸入1.5美元。多模態輸入,代理任務Elo超過1650,快取輸入九折。Anthropic下個季度的回應會講它自己的故事。2026年5月更難寫的,是業務人員要帶進客戶會議的那段論點。

討論

共有 0 則留言。