Kimi-K2.5 本機部署產出
用 Docker 和 Ollama 在本機部署 Kimi-K2.5,完成離線推理與可驗證的服務啟動。

用 Docker 和 Ollama 在本機部署 Kimi-K2.5,完成離線推理與可驗證的服務啟動。
這篇給想把 Kimi-K2.5 跑在自己電腦上的開發者看,不需要先做雲端架構或額外平台整合。照著做完,你會得到一組可重複啟動的 Docker Compose 服務、一個已下載的模型,以及一個能直接回應提示詞的本機測試結果。
開始之前
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
- Docker Desktop 4.30+ 或 Docker Engine 24+,並啟用 Docker Compose v2
- 本機已安裝 Ollama,或可直接拉取 Ollama GitHub 的容器映像
- Node 20+,僅在你要用腳本測試 API 時需要
- 至少 16 GB RAM,較大的量化模型建議更多
- 至少 50 GB 可用磁碟空間,放模型檔、快取與後續更新
- GitHub 帳號,若你要版本控管 compose 檔
- 可查閱 Ollama docs 以確認模型指令與映像名稱
Step 1: 建立專案資料夾
先建立一個乾淨工作目錄,讓 compose 檔、模型資料與記錄檔分開管理,之後調整設定也不會混亂。

mkdir kimi-k2-5-local
cd kimi-k2-5-local
mkdir models data logs你應該看到三個新資料夾已建立,且終端機目前仍停在專案根目錄。
Step 2: 寫入 Compose 設定檔
接著定義一份可重複啟動的容器設定,讓 Ollama 服務固定對外開放本機 API。

services:
ollama:
image: ollama/ollama:latest
container_name: kimi-k2-5-ollama
ports:
- "11434:11434"
volumes:
- ./models:/root/.ollama
restart: unless-stopped你應該看到根目錄出現 docker-compose.yml,而且服務名稱在 Docker 裡可清楚辨識。
Step 3: 啟動 Ollama 容器
現在把 runtime 跑起來,讓本機先具備 Ollama 服務,再進行模型下載與推理測試。
docker compose up -d你應該看到容器成功啟動,並且 docker ps 會列出 kimi-k2-5-ollama 正在執行。
Step 4: 下載 Kimi-K2.5 模型
服務啟動後,拉取你要使用的模型標籤,讓本機先備妥權重檔,之後才能直接做推理。
docker exec -it kimi-k2-5-ollama ollama pull kimi-k2.5你應該看到下載完成,沒有 layer 失敗訊息,而且模型會出現在 Ollama 的模型清單中。
Step 5: 執行本機提示詞測試
最後送出一個簡單提示詞,確認模型能透過本機 Ollama 端點正常回應。
docker exec -it kimi-k2-5-ollama ollama run kimi-k2.5 "Write one sentence about local AI development."你應該看到終端機輸出一段文字回覆,這代表模型已經能在你的電腦上處理請求。
| 指標 | 基準/優化前 | 結果/優化後 |
|---|---|---|
| 部署方式 | 手動安裝與逐步設定 | Docker Compose 一鍵啟動 |
| 記憶體規劃 | 沒有明確門檻 | 建議至少 16 GB RAM |
| 磁碟規劃 | 臨時估算空間 | 建議預留 50 GB 可用空間 |
常見錯誤
- 記憶體不足:如果容器退出或頻繁交換記憶體,請增加 RAM,或改用更小的量化模型標籤。
- 忘記開放 11434:如果 API 無法連線,先確認 compose 檔有正確對映埠號,且沒有被其他服務占用。
- 模型名稱打錯:如果 Ollama 顯示找不到模型,請回頭核對標籤拼字,並使用文件或 repo 中的完整名稱。
接下來可以看什麼
本機部署成功後,可以再接一個客戶端應用、量測提示詞延遲,或把服務放到反向代理後面,讓同一個局域網內的其他裝置也能安全使用。