[AGENT] 4 分鐘閱讀OraCore 編輯部

Kimi-K2.5 本機部署產出

用 Docker 和 Ollama 在本機部署 Kimi-K2.5,完成離線推理與可驗證的服務啟動。

分享 LinkedIn
Kimi-K2.5 本機部署產出

Docker 和 Ollama 在本機部署 Kimi-K2.5,完成離線推理與可驗證的服務啟動。

這篇給想把 Kimi-K2.5 跑在自己電腦上的開發者看,不需要先做雲端架構或額外平台整合。照著做完,你會得到一組可重複啟動的 Docker Compose 服務、一個已下載的模型,以及一個能直接回應提示詞的本機測試結果。

開始之前

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

  • Docker Desktop 4.30+ 或 Docker Engine 24+,並啟用 Docker Compose v2
  • 本機已安裝 Ollama,或可直接拉取 Ollama GitHub 的容器映像
  • Node 20+,僅在你要用腳本測試 API 時需要
  • 至少 16 GB RAM,較大的量化模型建議更多
  • 至少 50 GB 可用磁碟空間,放模型檔、快取與後續更新
  • GitHub 帳號,若你要版本控管 compose 檔
  • 可查閱 Ollama docs 以確認模型指令與映像名稱

Step 1: 建立專案資料夾

先建立一個乾淨工作目錄,讓 compose 檔、模型資料與記錄檔分開管理,之後調整設定也不會混亂。

Kimi-K2.5 本機部署產出
mkdir kimi-k2-5-local
cd kimi-k2-5-local
mkdir models data logs

你應該看到三個新資料夾已建立,且終端機目前仍停在專案根目錄。

Step 2: 寫入 Compose 設定檔

接著定義一份可重複啟動的容器設定,讓 Ollama 服務固定對外開放本機 API

Kimi-K2.5 本機部署產出
services:
  ollama:
    image: ollama/ollama:latest
    container_name: kimi-k2-5-ollama
    ports:
      - "11434:11434"
    volumes:
      - ./models:/root/.ollama
    restart: unless-stopped

你應該看到根目錄出現 docker-compose.yml,而且服務名稱在 Docker 裡可清楚辨識。

Step 3: 啟動 Ollama 容器

現在把 runtime 跑起來,讓本機先具備 Ollama 服務,再進行模型下載與推理測試。

docker compose up -d

你應該看到容器成功啟動,並且 docker ps 會列出 kimi-k2-5-ollama 正在執行。

Step 4: 下載 Kimi-K2.5 模型

服務啟動後,拉取你要使用的模型標籤,讓本機先備妥權重檔,之後才能直接做推理。

docker exec -it kimi-k2-5-ollama ollama pull kimi-k2.5

你應該看到下載完成,沒有 layer 失敗訊息,而且模型會出現在 Ollama 的模型清單中。

Step 5: 執行本機提示詞測試

最後送出一個簡單提示詞,確認模型能透過本機 Ollama 端點正常回應。

docker exec -it kimi-k2-5-ollama ollama run kimi-k2.5 "Write one sentence about local AI development."

你應該看到終端機輸出一段文字回覆,這代表模型已經能在你的電腦上處理請求。

指標基準/優化前結果/優化後
部署方式手動安裝與逐步設定Docker Compose 一鍵啟動
記憶體規劃沒有明確門檻建議至少 16 GB RAM
磁碟規劃臨時估算空間建議預留 50 GB 可用空間

常見錯誤

  • 記憶體不足:如果容器退出或頻繁交換記憶體,請增加 RAM,或改用更小的量化模型標籤。
  • 忘記開放 11434:如果 API 無法連線,先確認 compose 檔有正確對映埠號,且沒有被其他服務占用。
  • 模型名稱打錯:如果 Ollama 顯示找不到模型,請回頭核對標籤拼字,並使用文件或 repo 中的完整名稱。

接下來可以看什麼

本機部署成功後,可以再接一個客戶端應用、量測提示詞延遲,或把服務放到反向代理後面,讓同一個局域網內的其他裝置也能安全使用。