Kimi K2.7 上線與驗證清單
這篇教你確認 Kimi K2.7 模型 ID、做 A/B 測試,並把它接進現有 agent 工作流。

這篇教你確認 Kimi K2.7 模型 ID、做 A/B 測試,並把它接進現有 agent 工作流。
這篇給正在評估 Moonshot AI Kimi K2.7 的開發者看,尤其是已經在用 Kimi K2.6、OpenRouter,或長駐 agent 架構的人。照做完,你會拿到一份可直接執行的驗證流程,知道它是否適合你的長上下文、中文與多步工具任務。
你也會得到一個可落地的切換方法,從模型確認、測試集建立,到接入既有應用與觀察結果,都能一路照著做,不需要重寫整個系統。
開始之前
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
- OpenRouter 帳號與 API 存取權
- 有效的 OpenRouter API key
- Node 20+ 或 Python 3.11+ 本機環境
- 可依模型名稱切換的 agent app 或 playground
- 5 到 10 筆真實提示詞、文件或工單樣本
- OpenClaw Launch 的 Kimi K2.7 發布文
- OpenRouter model list
- OpenRouter SDK
Step 1: 確認 K2.7 模型 ID
目的:先抓到 OpenRouter 上的精確模型名稱,避免把舊 ID 或錯誤別名寫進正式設定。

打開 OpenRouter model list,找到 Kimi K2.7 項目,記下它的 ID、context length 與定價欄位。後續所有測試與部署都以這個 live listing 為準,不要只看文章標題。
curl https://openrouter.ai/api/v1/models | jq '.data[] | select(.name | test("Kimi.*K2.7"; "i")) | {id, name, context_length, pricing}'驗收:你應該看到一筆可直接貼進設定檔的 Kimi K2.7 模型 ID。
Step 2: 建立 A/B 測試題庫
目的:做出一組固定題目,讓 K2.7 能和你現有模型在同一批任務上公平比較。

挑 5 到 10 題,覆蓋你的真實工作:長文件摘要、中文改寫、程式碼修改、多步除錯,以及一題多模態或圖片輸入。每一題都要固定內容,確保不同模型看到的是同一份輸入。
把題目存成純文字或 JSON,方便 agent 自動重播。如果你手上已有 production traces,直接拿來用,比自造測試樣本更有參考價值。
驗收:你應該有一份可重跑、可比對的題庫檔案,能對不同模型產生一致輸入。
Step 3: 切換 agent 到 Kimi K2.7
目的:用最小改動把既有 agent 指到 K2.7,先驗證它能在真實流程中正常回應。
如果你用 OpenClaw 或 Hermes Agent,就在模型下拉選單選 K2.7,再填入 OpenRouter key。若你是直接呼叫 API,只要改 request 裡的 model 欄位,其他參數先維持不變。
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://openrouter.ai/api/v1",
apiKey: process.env.OPENROUTER_API_KEY,
});
const response = await client.chat.completions.create({
model: "moonshot/kimi-k2-7",
messages: [
{ role: "system", content: "You are a coding agent." },
{ role: "user", content: "Review this repo and propose a fix." }
]
});
console.log(response.choices[0].message.content);驗收:你應該收到一個有效 completion,而且路由、工具與儲存流程都沒有被迫改寫。
Step 4: 跑逐題對照測試
目的:用你自己的資料判斷 K2.7 是否真的優於基準模型,而不是只看「新模型」印象。
把每一題分別送進 K2.7 與基準模型,逐項評分 correctness、usefulness、tool-call quality,若是程式任務再看 edit distance。長上下文題目要特別檢查前段資訊是否被保留,以及模型能否一路遵守指令到最後。
先保持條件一致:temperature 相同、max tokens 相同、工具配置相同。若結果怪異,再一次只改一個變數,方便定位差異來源。
驗收:你應該能明確指出哪個模型在摘要、中文寫作與 agentic coding 上更適合你的工作流。
Step 5: 把勝出模型放進常駐 agent
目的:把測試結果變成可持續運作的預設設定,讓日常流量直接吃到最佳模型。
當你確認勝出者後,把預設模型改到 agent config,並保留基準模型作為 fallback。若平台支援下拉選單,讓 K2.7 成為長文件與中文任務的預設,快速低成本請求則維持較小模型。
上線時採漸進式釋出,觀察 latency、cost 與回答品質在真實流量下的表現。如果 K2.7 品質更好但速度較慢,就把它保留給真正值得的任務。
驗收:你應該看到 live requests 穩定走 K2.7,且使用者端沒有中斷,fallback 也可隨時切回。
常見錯誤
- 只看文章,不看 live model list。修法:上線前先從 OpenRouter 複製最新 model ID。
- 不同模型卻用不同題目或參數。修法:固定測試集、temperature 與工具設定,確保比較公平。
- 所有任務都無差別改用 K2.7。修法:只把它留給長上下文、中文或多步 agent 任務。
接下來可以看什麼
完成 K2.7 驗證後,可以用同一套 A/B 方法擴到其他模型,接著整理出每一層任務該用哪個模型,讓團隊之後切換時有明確依據。