技術

Claude Opus 4.8 自查程式碼錯誤的數量提升至四倍

Susan Hill

Anthropic 已將其最強模型升級為 Claude Opus 4.8,核心變化不是更大的腦子,而是更謹慎的腦子。該公司稱,與上一代相比,模型讓自己所寫程式碼的瑕疵不加說明地溜過的機率約低四倍,並更願意指出一項任務中自己拿不準的部分。無論是寫程式、跑分析還是操作電腦,對把真實工作交給 AI 的人而言,這種可靠性才是真正要緊的性能。

如今 AI 代理的軟肋不是愚笨,而是自信。它們交出看似完成、讀來順暢的結果,卻悄悄夾帶錯誤,而一個放任自行運轉的系統,往往把下一步建在上一步的差錯之上。把一項多步驟任務交給代理,開頭一個錯誤假設就可能蔓延到隨後的一切,於是工作看上去完整,實則不知不覺地壞掉了。一個把自身疑慮擺出來、而非粉飾過去的模型更易於監督,因為人知道該往哪裡看。

最清楚的證據在程式碼裡。Anthropic 表示,Opus 4.8 讓它生成程式碼中不加標註溜過的瑕疵大為減少,也就是那種不在審查、而在正式環境才冒頭的靜默缺陷。較早試用的投資公司 Bridgewater Associates 稱,模型會主動指出一項分析在輸入與輸出兩端的問題,而其他系統往往會漏掉。在知識工作與金融領域,危險的錯誤恰恰是沒人及時抓住的那一個。

基準數字支撐了這一判斷,卻不是故事的核心。據稱 Opus 4.8 在以真實軟體工程任務搭建的 SWE-Bench Pro 上取得 69.2%,領先於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。在 Anthropic 自己的測量中,它在一項程式設計測試的每個投入檔位上都勝過此前所有 Opus 模型,並在一項法律推理測試中創下該公司有紀錄以來的最高成績。優勢是真實的,但很窄,而基準上的勝利對模型整天做瑣碎活計時的表現預測能力很差。

模型還帶來新工具。Claude Code 中處於研究預覽的功能 dynamic workflows,讓 Opus 先規劃一項大工程,再在單次工作階段裡並行執行數百個子代理,面向跨越數十萬行程式碼的遷移,並以專案現有的測試套件作為成敗標尺。此外,Claude.ai 與該公司的 Cowork 環境中的一個新控制項,允許使用者設定模型在一次回覆上投入多少努力、花多少 token。

保留意見緊貼著承諾。可靠性的提升在很大程度上依賴 Anthropic 自家的測試,而像低四倍這樣的數字是內部測量,並非獨立稽核。誠實也難以從外部核驗,因為模型可以宣告自己的不確定卻照樣出錯,或在不該舉旗的地方舉旗。dynamic workflows 僅以預覽形式登場,而非成品功能,速度的說法也不像聽上去那麼慷慨,因為快速模式收費是標準價的兩倍,所謂更便宜只是相對於以往的高階定價而言。

對在意成本的人來說,標準接入維持在每百萬輸入 token 五美元、每百萬輸出二十五美元,與上一代 Opus 相同。快速模式以約兩倍半的速度運行,每百萬收費十美元與五十美元,這使新的努力控制項既是品質旋鈕,也是預算工具。Claude Opus 4.8 現已透過 Anthropic 的開發者 API 以 claude-opus-4-8 之名提供,公司稱當天即在各處鋪開。它於週四亮相,距 Opus 4.7 約六週,是一個異常短的間隔,此前那一版反響平平,且 OpenAI 與 Google 接連推出競品。真正的考驗在於:一個被訓練得會懷疑自己的模型,在日常工作中是否比一個被訓練得在排行榜上發光的模型更有用,而這個裁決將由人們真正放手運行的代理作出。

討論

共有 0 則留言。