怎麼在本機跑 Gemma 4

OraCore Editors

返回首頁

[IND] 2026年6月7日5 分鐘閱讀OraCore 編輯部

怎麼在本機跑 Gemma 4

用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。

Gemma 4 量化模型 Hugging Face Unsloth Studio llama.cpp

分享 LinkedIn

用 Unsloth Studio 或 llama.cpp 在本機下載、啟動並聊天 Gemma 4。

這篇給想把 Google Gemma 4 跑在筆電、桌機或工作站上的開發者。照著做完，你會拿到一套可離線使用的本機流程，包含選型、下載、啟動、聊天設定，以及思考模式和多模態輸入的基本做法。

你可以走 Unsloth 文件與 Unsloth GitHub 的瀏覽器介面，也可以走 llama.cpp GitHub 的直接推理流程。Gemma 4 採用 Apache-2.0 授權，部分型號支援文字、圖片與音訊，量化後可在較小記憶體的機器上執行。

開始之前

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Google 或 Hugging Face 帳號，用來下載模型。
本機作業系統為 macOS、Windows、Linux，或 Windows 上的 WSL。
Python 3.10+，用於 Unsloth Studio 流程。
CMake 3.22+ 與 C++ 編譯器，用於建置 llama.cpp。
Git 2.30+，用於取得原始碼。
Hugging Face CLI 或 pip 存取權，用於模型下載。
NVIDIA GPU 非必需，但可明顯提升推理速度。
記憶體至少 8 GB 可跑 Gemma-4-12B 4-bit，或 5 GB 可跑 E2B 4-bit。

Step 1: 選定 Gemma 4 型號

先決定模型大小，才能避免下載後才發現記憶體不夠。Gemma 4 有 E2B、E4B、12B Unified、26B-A4B 與 31B 等版本，差異主要在速度、品質與佔用空間。

如果你的目標是筆電或邊緣裝置，先從 E2B 或 E4B 開始；如果要兼顧多模態與可用性，12B Unified 比較平衡；如果你有較大的記憶體預算，26B-A4B 與 31B 會提供更高品質。

你應該能寫下具名的記憶體預算，例如「12B 4-bit 需要約 8 GB」、「31B 4-bit 需要約 20 GB」。

Step 2: 安裝 Unsloth Studio

這一步的目的，是先拿到一個能在瀏覽器裡完成搜尋、下載與聊天的本機介面。Unsloth Studio 支援 GGUF 與 MLX 檔案，也會幫你套用常見的推理參數。

先用 pip 安裝，再啟動本機服務，最後用瀏覽器打開介面並建立第一次登入密碼。

python -m pip install unsloth-studio

你應該看到 Studio UI 出現在 http://127.0.0.1:8888，而且可以切到 Chat 分頁。

Step 3: 下載 Gemma 4 模型檔

這一步的目的，是把符合你硬體的量化模型抓到本機。若使用 Unsloth Studio，就在模型瀏覽器搜尋 Gemma 4 並下載對應量化；若走手動流程，就從 Hugging Face 選 GGUF 或 MLX 版本。

初次上手時，E2B 與 E4B 可優先選 8-bit；12B、26B-A4B 與 31B 則建議先看 Dynamic 4-bit 版本，通常更容易塞進本機記憶體。

你應該看到完整的模型檔、分片清單，或下載完成的狀態，並保留足夠記憶體給執行時額外開銷。

Step 4: 啟動 Gemma 4 聊天服務

這一步的目的，是把模型變成可互動的本機聊天服務。Gemma 4 使用標準的 system、user、assistant 角色，並可透過 chat template 參數控制是否啟用思考模式。

若你用 llama.cpp，建議直接用 llama-server 來啟動，並在需要時關掉思考輸出，讓多輪對話只保留最終答案。

llama-server -m model.gguf --chat-template-kwargs '{"thinking":false}'

你應該看到伺服器啟動訊息，並能在本機端點送出第一個聊天請求。

Step 5: 驗證多模態與記憶體設定

這一步的目的，是確認模型真的能符合你的使用情境。若你要處理圖片或音訊，請先確認所選型號支援該模態，再測試一張小圖或一段短音檔。

同時檢查記憶體餘量與上下文長度，避免在長對話時因為超出限制而中斷。若你只需要文字推理，就先把多模態關閉，換取更穩定的本機執行。

你應該看到一則成功回覆，且系統監控工具顯示記憶體沒有持續逼近上限。

常見錯誤

模型下載失敗：先確認 Hugging Face 登入狀態，再重試下載，必要時改用 CLI 下載分片檔。
記憶體不足：改用更小的型號或更低位元量化，例如從 12B 換到 E4B，或從 8-bit 換到 4-bit。
聊天輸出出現思考內容：在 llama.cpp 端重新檢查 chat-template 參數，並確認你啟動的是支援關閉思考的流程。

接下來可以看什麼

如果你已經能在本機穩定跑起來，下一步可以接著看 Gemma 4 的量化調參、長上下文設定，以及把本機模型包成 OpenAI 相容 API 的做法。

// 相關文章

怎麼在本機跑 Gemma 4

開始之前

訂閱 AI 趨勢週報

Step 1: 選定 Gemma 4 型號

Step 2: 安裝 Unsloth Studio

Step 3: 下載 Gemma 4 模型檔

Step 4: 啟動 Gemma 4 聊天服務

Step 5: 驗證多模態與記憶體設定

常見錯誤

接下來可以看什麼

4 個科羅拉多冰雹風險

丹佛冰雹狂襲市區與機場

5 個丹佛本週風暴時機重點

丹佛冰雹把道路變成損害清單

A.J. Brown 交易談判偏向老鷹

5 個步驟把 Codex 接到 DeepSeek