Claude Opus 4.8 自查程式碼錯誤的數量提升至四倍

Anthropic 已將其最強模型升級為 Claude Opus 4.8，核心變化不是更大的腦子，而是更謹慎的腦子。該公司稱，與上一代相比，模型讓自己所寫程式碼的瑕疵不加說明地溜過的機率約低四倍，並更願意指出一項任務中自己拿不準的部分。無論是寫程式、跑分析還是操作電腦，對把真實工作交給 AI 的人而言，這種可靠性才是真正要緊的性能。

如今 AI 代理的軟肋不是愚笨，而是自信。它們交出看似完成、讀來順暢的結果，卻悄悄夾帶錯誤，而一個放任自行運轉的系統，往往把下一步建在上一步的差錯之上。把一項多步驟任務交給代理，開頭一個錯誤假設就可能蔓延到隨後的一切，於是工作看上去完整，實則不知不覺地壞掉了。一個把自身疑慮擺出來、而非粉飾過去的模型更易於監督，因為人知道該往哪裡看。

最清楚的證據在程式碼裡。Anthropic 表示，Opus 4.8 讓它生成程式碼中不加標註溜過的瑕疵大為減少，也就是那種不在審查、而在正式環境才冒頭的靜默缺陷。較早試用的投資公司 Bridgewater Associates 稱，模型會主動指出一項分析在輸入與輸出兩端的問題，而其他系統往往會漏掉。在知識工作與金融領域，危險的錯誤恰恰是沒人及時抓住的那一個。

基準數字支撐了這一判斷，卻不是故事的核心。據稱 Opus 4.8 在以真實軟體工程任務搭建的 SWE-Bench Pro 上取得 69.2%，領先於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。在 Anthropic 自己的測量中，它在一項程式設計測試的每個投入檔位上都勝過此前所有 Opus 模型，並在一項法律推理測試中創下該公司有紀錄以來的最高成績。優勢是真實的，但很窄，而基準上的勝利對模型整天做瑣碎活計時的表現預測能力很差。

模型還帶來新工具。Claude Code 中處於研究預覽的功能 dynamic workflows，讓 Opus 先規劃一項大工程，再在單次工作階段裡並行執行數百個子代理，面向跨越數十萬行程式碼的遷移，並以專案現有的測試套件作為成敗標尺。此外，Claude.ai 與該公司的 Cowork 環境中的一個新控制項，允許使用者設定模型在一次回覆上投入多少努力、花多少 token。

保留意見緊貼著承諾。可靠性的提升在很大程度上依賴 Anthropic 自家的測試，而像低四倍這樣的數字是內部測量，並非獨立稽核。誠實也難以從外部核驗，因為模型可以宣告自己的不確定卻照樣出錯，或在不該舉旗的地方舉旗。dynamic workflows 僅以預覽形式登場，而非成品功能，速度的說法也不像聽上去那麼慷慨，因為快速模式收費是標準價的兩倍，所謂更便宜只是相對於以往的高階定價而言。

對在意成本的人來說，標準接入維持在每百萬輸入 token 五美元、每百萬輸出二十五美元，與上一代 Opus 相同。快速模式以約兩倍半的速度運行，每百萬收費十美元與五十美元，這使新的努力控制項既是品質旋鈕，也是預算工具。Claude Opus 4.8 現已透過 Anthropic 的開發者 API 以 claude-opus-4-8 之名提供，公司稱當天即在各處鋪開。它於週四亮相，距 Opus 4.7 約六週，是一個異常短的間隔，此前那一版反響平平，且 OpenAI 與 Google 接連推出競品。真正的考驗在於：一個被訓練得會懷疑自己的模型，在日常工作中是否比一個被訓練得在排行榜上發光的模型更有用，而這個裁決將由人們真正放手運行的代理作出。

標籤: Anthropic, Claude Code, AI reasoning, Claude Opus 4.8, Generative AI, LLM