怎麼在本機跑 Gemma 4
用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。

用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。
這篇給想把 Google Gemma 4 跑在筆電、桌機或工作站上的開發者。照著做完,你會拿到一套可離線使用的本機流程,包含選型、下載、啟動、聊天設定,以及思考模式和多模態輸入的基本做法。
你可以走 Unsloth 文件與 Unsloth GitHub 的瀏覽器介面,也可以走 llama.cpp GitHub 的直接推理流程。Gemma 4 採用 Apache-2.0 授權,部分型號支援文字、圖片與音訊,量化後可在較小記憶體的機器上執行。
開始之前
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
- Google 或 Hugging Face 帳號,用來下載模型。
- 本機作業系統為 macOS、Windows、Linux,或 Windows 上的 WSL。
- Python 3.10+,用於 Unsloth Studio 流程。
- CMake 3.22+ 與 C++ 編譯器,用於建置 llama.cpp。
- Git 2.30+,用於取得原始碼。
- Hugging Face CLI 或 pip 存取權,用於模型下載。
- NVIDIA GPU 非必需,但可明顯提升推理速度。
- 記憶體至少 8 GB 可跑 Gemma-4-12B 4-bit,或 5 GB 可跑 E2B 4-bit。
Step 1: 選定 Gemma 4 型號
先決定模型大小,才能避免下載後才發現記憶體不夠。Gemma 4 有 E2B、E4B、12B Unified、26B-A4B 與 31B 等版本,差異主要在速度、品質與佔用空間。

如果你的目標是筆電或邊緣裝置,先從 E2B 或 E4B 開始;如果要兼顧多模態與可用性,12B Unified 比較平衡;如果你有較大的記憶體預算,26B-A4B 與 31B 會提供更高品質。
你應該能寫下具名的記憶體預算,例如「12B 4-bit 需要約 8 GB」、「31B 4-bit 需要約 20 GB」。
Step 2: 安裝 Unsloth Studio
這一步的目的,是先拿到一個能在瀏覽器裡完成搜尋、下載與聊天的本機介面。Unsloth Studio 支援 GGUF 與 MLX 檔案,也會幫你套用常見的推理參數。

先用 pip 安裝,再啟動本機服務,最後用瀏覽器打開介面並建立第一次登入密碼。
python -m pip install unsloth-studio你應該看到 Studio UI 出現在 http://127.0.0.1:8888,而且可以切到 Chat 分頁。
Step 3: 下載 Gemma 4 模型檔
這一步的目的,是把符合你硬體的量化模型抓到本機。若使用 Unsloth Studio,就在模型瀏覽器搜尋 Gemma 4 並下載對應量化;若走手動流程,就從 Hugging Face 選 GGUF 或 MLX 版本。
初次上手時,E2B 與 E4B 可優先選 8-bit;12B、26B-A4B 與 31B 則建議先看 Dynamic 4-bit 版本,通常更容易塞進本機記憶體。
你應該看到完整的模型檔、分片清單,或下載完成的狀態,並保留足夠記憶體給執行時額外開銷。
Step 4: 啟動 Gemma 4 聊天服務
這一步的目的,是把模型變成可互動的本機聊天服務。Gemma 4 使用標準的 system、user、assistant 角色,並可透過 chat template 參數控制是否啟用思考模式。
若你用 llama.cpp,建議直接用 llama-server 來啟動,並在需要時關掉思考輸出,讓多輪對話只保留最終答案。
llama-server -m model.gguf --chat-template-kwargs '{"thinking":false}'你應該看到伺服器啟動訊息,並能在本機端點送出第一個聊天請求。
Step 5: 驗證多模態與記憶體設定
這一步的目的,是確認模型真的能符合你的使用情境。若你要處理圖片或音訊,請先確認所選型號支援該模態,再測試一張小圖或一段短音檔。
同時檢查記憶體餘量與上下文長度,避免在長對話時因為超出限制而中斷。若你只需要文字推理,就先把多模態關閉,換取更穩定的本機執行。
你應該看到一則成功回覆,且系統監控工具顯示記憶體沒有持續逼近上限。
常見錯誤
- 模型下載失敗:先確認 Hugging Face 登入狀態,再重試下載,必要時改用 CLI 下載分片檔。
- 記憶體不足:改用更小的型號或更低位元量化,例如從 12B 換到 E4B,或從 8-bit 換到 4-bit。
- 聊天輸出出現思考內容:在 llama.cpp 端重新檢查 chat-template 參數,並確認你啟動的是支援關閉思考的流程。
接下來可以看什麼
如果你已經能在本機穩定跑起來,下一步可以接著看 Gemma 4 的量化調參、長上下文設定,以及把本機模型包成 OpenAI 相容 API 的做法。