技術

OpenAI新語音模型把推理放進音訊迴路本身,過去暴露AI身分的那段沉默消失了

會出賣你的,是那段停頓。在此之前,語音AI的工作流是這樣的——把語音轉成文字、把文字交給一個語言模型、取回答案、再把答案合成回音訊。每一步都吃時間。使用者聽到沉默,知道另一端正在處理什麼,會感覺到那道接縫。OpenAI的新模型GPT-Realtime-2把整條流水線壓成一個單一模型,讓推理在音訊迴路內部完成。接縫消失了。
Susan Hill

OpenAI本週在Realtime API裡同時上線三款新音訊模型——GPT-Realtime-2、GPT-Realtime-Translate與GPT-Realtime-Whisper。挑大樑的是第一款。OpenAI將其定位為首個具備「GPT-5級推理」的語音模型,由單一模型同時處理音訊輸入與音訊輸出,思考被織進對話之中,而不是被夾塞在轉錄與合成的銜接處。支撐這一描述的數字是具體的。在Big Bench Audio上,新模型相較前一代參考模型的得分,從81.4%躍升至96.6%。Audio MultiChallenge從34.7%升至48.5%。上下文視窗由3.2萬token擴展到12.8萬token——足以在一次通話內完整裝下一名客戶的全部歷史。

結構層面的變化在跑分裡反而看得不那麼清楚。過去三年,凡是要把語音Agent推上生產環境的人,都得自己手縫整個技術堆疊——轉錄用Whisper或Deepgram,推理交給某個LLM,發聲用ElevenLabs或Cartesia,再加上一層用來掩飾延遲的提示工程。每一次部件之間的跨越,都要付出毫秒與清晰度。使用者聽到的,是腳本插入的「我幫您查一下」、模型思考時的一段空白、最後才到的答案,三幕劇式的拼接。GPT-Realtime-2把那一整套鷹架直接做成原生行為。前導句讓Agent能夠在呼叫工具的同時說出「我幫您查一下」,使用者於是不必繼續坐在沉默裡。平行工具呼叫允許模型同時向後端發出多次請求,並把當下進行中的那一項說出來。錯誤恢復則把失敗拉到台前,而非讓對話憑空凍結。

真正向開發者打開的那塊控制面板,才是最有意思的部分。「推理強度」現在變得可設定——minimal、low、medium、high與xhigh——預設為low,目的是在簡單詢問的場景把延遲壓住。回答「你們幾點打烊?」用不上GPT-5級推理;陪一位顧客處理退款爭議則用得上。同一個模型可以被指示「在這一輪裡思考多深」,這是相對於前代模型的實質變化——前代模型推理深度是固定的,開發者必須在部署時就在「快」與「聰明」之間二選一。

懷疑該保留一席之地。「GPT-5級推理」是行銷口號,不是可被獨立驗證的承諾——在沒有針對真實對話的獨立基準之前,這項比較只能停留在內部。語音Agent本身有一種基準很難抓到的失敗模式——它以平和、自然的語氣把錯誤內容篤定說出口的那一刻。更好的推理對此有幫助,但消除不了。價格也具分量。GPT-Realtime-2收費為每百萬音訊輸入token 32美元,每百萬輸出token 64美元。GPT-Realtime-Translate按每分鐘0.034美元計,GPT-Realtime-Whisper按每分鐘0.017美元。對於大流量客服業務而言夠便宜;但便宜的程度尚不足以讓人毫不思考地把它塞進任何一款消費級對話產品裡——你必須為每段會話長度做明確的預算判斷。

具體落地的場景把故事的後半段講完。Zillow同日上線了語音房源搜尋。德國電信在14個歐洲市場鋪開帶即時翻譯的語音客服。兩者正是OpenAI定價瞄準的使用場景——長、帶交易、上下文濃密的對話,使用者能從一個真正在「推理」而非僅在「檢索」的Agent那裡獲益。Priceline正在打造一套系統,讓旅客完全以語音管理飯店訂房與追蹤航班延誤。OpenAI最先點名的客戶共同點很清楚——他們恰恰是過去語音系統最不好用的一群:客服中心、客服熱線、交易型旅遊業務。也就是使用者今天對著電話喊「轉真人」的那些地方。

新模型即刻在Realtime API開放。ChatGPT本體的語音升級仍在路上——「再等等,還在火上」,OpenAI說。Sam Altman把這次發布安放在一個行為面的轉變上——當使用者需要「倒出」大量上下文時,他們愈發傾向於在AI面前以語音表達。若這個模式持續,語音AI與文字AI之間的差距開始收斂——而那道過去在電話線上暴露AI身分的接縫,會變得愈來愈難以察覺。

討論

共有 0 則留言。