技術

美團LongCat 2.0以國產晶片超越GPT-5.5,開源程式模型震驚AI界

Susan Hill

LongCat 2.0擁有1.6兆參數,支援100萬token的上下文視窗,並在衡量真實軟體工程能力的主流基準測試中超越了OpenAI的GPT-5.5。這款模型由美團開發——在中國以外,多數人若知道這家公司,也只認識它的外送服務。

模型在SWE-bench Pro上取得59.5分,GPT-5.5為58.6分。分差看似微小,但這個系統的訓練方式才是成就的核心。美團以超過5萬張國產AI加速卡訓練LongCat 2.0,完全未使用輝達硬體——自2022年以來,中國已難以大量進口輝達晶片。晶片廠商尚未官方確認,業界普遍猜測為華為昇腾910B系列。若屬實,這將是華為晶片訓練的模型首次在公開基準測試中達到前沿水準。

LongCat 2.0採用混合專家(MoE)架構:每次查詢僅啟用330億至560億個參數,推論速度快且無需昂貴的企業級硬體。百萬token上下文視窗支援在單次工作階段中載入完整程式碼庫。在SWE-bench Multilingual上得分77.3;測試真實Unix環境導航能力的Terminal-Bench則為70.8。

正式發布前,該模型以代號「Owl Alpha」在OpenRouter悄然運行約兩個月。使用者注意到其優異的程式撰寫能力,卻不知其來源。美團在發布後確認,Owl Alpha正是LongCat 2.0的早期評估階段。

MIT授權只說明了故事的一部分。儘管這是最開放的授權之一,模型權重目前仍未公開——GitHub儲存庫與Hugging Face頁面均顯示「即將發布」。目前LongCat 2.0僅可透過託管API存取,無法下載、微調或本地部署。

美團每日處理逾5,000萬份餐飲訂單,並在公開發布前悄然建構了內部語言模型「知機」(Zhichi)。LongCat 2.0是美團首款公開模型,也是目前開源授權下性能最強的程式系統之一。

權重公開後,LongCat 2.0將直接與Meta的Llama 4.1和DeepSeek-V4 Pro角逐最強可下載開源程式模型的地位。究竟是哪款國產晶片支撐了這些成績,這個問題的答案將遠遠超出AI領域的範疇。

標籤: , , , , ,

討論

共有 0 則留言。