技術

Ollama 0.22.1 讓 Gemma 4 工具呼叫在筆電上免 API 金鑰運行

Susan Hill

Ollama 0.22.1 帶來更新後的 Gemma 4 模型渲染器,終於正式支援本地 AI 認真工作真正需要的兩種能力:明確的思考模式以及函式呼叫,也就是工具呼叫。工具呼叫讓模型自己決定何時呼叫一個外部函式 —— 打開一個網頁、向資料庫查詢、跑一段運算 —— 並把結果再織回自己的推理。思考模式把模型的中間步驟攤在外面,讓應用程式能抓取這些步驟並據以行動。這兩項先前都是大型雲端 API 收費的功能。如今兩者都在 Gemma 4 之上本地運作,中間沒有任何外部服務。

這則消息比又一次模型發表更值得分量的原因,在於硬體帳目。Google 以 Apache-2.0 授權釋出的 Gemma 4 家族涵蓋四種規模:E2B、E4B、26B A4B 與 31B。較小的版本可以在搭載整合式顯示晶片、十二到十六 GB 記憶體的較新筆電上運作。26B A4B 與 31B 版本需要桌上型 GPU,但仍然清楚地落在消費者範圍。同一系列以前必須簽下付費 API 合約、或者搭一台四位數價位家用伺服器才能跑的架構,如今對任何擁有一台還算現代機器的人來說,只是一個週六午後的安裝。

對不寫程式的人來說,實際後果是一整類代理型應用 —— 那些讀信、草擬回信、抓取文件、填表單、為會議做摘要的程式 —— 不再非把那些資料送到第三方伺服器不可。一個在意隱私又想要真正代理自動化的使用者,過去只有兩條路:要嘛相信某個雲端供應商的資料政策,要嘛在本地跑一個能力弱得多、沒有工具呼叫的模型。中間地帶是個空缺,Ollama 0.22.1 為 Gemma 4 這一量級補上了這個空缺。

以懷疑的角度讀,Ollama 與 Gemma 4 並不是雲端前沿的等價品。本地架設的 31B 模型在複雜推理上,既追不上 Anthropic 的 Claude,也追不上 OpenAI 的 GPT-5。在較長的工具呼叫鏈上,小型版本的準確度明顯較差。多模態輸入可以用,只是更慢。整合的負擔仍然壓在使用者身上:還沒有人打造出一款打磨到位、能和成熟 SaaS 流程競爭的 Gemma 4 加 Ollama 代理應用。硬體的天花板與軟體的細修目前依然是真正的缺口。

此版本現已透過 Ollama 針對 macOS、Linux 與 Windows 的標準安裝程式釋出。Gemma 4 權重存放於 Ollama 模型庫的 gemma4 命名空間之下,0.22.1 帶來的執行時期變動,只要拉下任一規模即會自動套用。

討論

共有 0 則留言。