小米 MiMo-V2.5-Pro:價格、評測與限制
小米 MiMo-V2.5-Pro 是一款 text-only 模型,主打 1M token 長上下文、程式碼與 agent 工作,價格落在中段,適合大型文件與多步驟任務。

小米 MiMo-V2.5-Pro 是一款 text-only 模型,主打 1M token 長上下文、程式碼與 agent 工作,價格落在中段,適合大型文件與多步驟任務。
小米在 2026 年 4 月 22 日推出 MiMo-V2.5-Pro。這顆模型很直接,不走花俏路線。它給你 1,048,576 token 上下文,還有 131,072 token 的最大輸出長度。
價格也很清楚。輸入每 100 萬 token 要 $0.435,輸出每 100 萬 token 要 $0.87。這種設定很像是給重度使用者、工程團隊、文件系統和 agent 流程準備的,不是拿來做幾張圖就結束。
它現在可透過多個供應商使用,包括 Xiaomi、Novita、DigitalOcean 與 DeepInfra。講白了,這是一顆很務實的 text-only 旗艦模型。
| 指標 | 數值 | 意義 |
|---|---|---|
| 發布日期 | 2026-04-22 | 代表這是近期旗艦版本 |
| 上下文長度 | 1,048,576 tokens | 適合超長文件與多檔案工作 |
| 輸入價格 | $0.435 / 1M tokens | 屬於中段價位 |
| 輸出價格 | $0.87 / 1M tokens | 長輸出成本仍算可控 |
| Intelligence index | 42.2 | 反映整體推理表現 |
| Coding index | 60.2 | 顯示程式能力不差 |
| Agentic index | 68.7 | 代表工具使用與多步驟任務表現不錯 |
小米這次到底在賣什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
MiMo-V2.5-Pro 是 Xiaomi 這個家族裡的高階 text model。它的定位很明確,就是給 coding、tool use、function calling、長篇推理這些工作用。它不是 multimodal 全能機。它只做文字,而且只做文字。

這種定位其實很聰明。很多模型發表都愛把能力講得很滿。結果一看,什麼都能碰一點,什麼都不夠深。小米這次反而收斂很多。它把重點放在 agent pipeline、軟體工程助理、文件分析系統這類場景。
在 Artificial Analysis 的頁面上,這顆模型的 intelligence index 是 42.2,coding index 是 60.2,agentic index 是 68.7。這三個數字很像一張名片。你如果在看 production 可用性,這些比宣傳詞有用多了。
- text-only 模型,沒有原生視覺能力
- 1M token 上下文,適合超長文件
- 支援 function calling 與工具使用
- 價格落在專業模型的中段區間
評測結果看起來很對題
這顆模型的 benchmark 走向,跟它的定位很一致。它在科學推理、指令遵循、agent 任務上都有不錯表現。公開資料顯示,它在 GPQA Diamond 拿到 86.6%,在 τ²-Bench 拿到 94.2%,在 IFBench 拿到 79.9%,在 LCR 拿到 73.3%。
這些數字不是拿來炫耀而已。GPQA Diamond 測的是研究所等級科學題。τ²-Bench 看的是對話型 agent 行為。IFBench 看指令遵循。LCR 則是長上下文可靠度。把它們放一起看,會發現 MiMo-V2.5-Pro 很像是為「長文件 + 多步驟 + 工具鏈」這種工作設計的。
在這裡,Artificial Analysis 的模型頁 有一句話很直白:它很會跟著指令走,也很會用工具。說真的,這比一堆行銷文案有說服力。
“The model is very good at following instructions and using tools, which makes it suitable for long, document-heavy workflows.”
如果你在做內部助理、工單系統、repo 搜尋、程式碼修改,這句話就很重要。因為真正麻煩的不是單次回答,而是模型能不能把一串動作穩定做完。
- GPQA Diamond:86.6%
- τ²-Bench:94.2%
- IFBench:79.9%
- LCR:73.3%
價格和同級對手怎麼比
MiMo-V2.5-Pro 的價格很容易拿來跟別人比。每 100 萬 input token $0.435、output token $0.87,這個區間跟 DeepSeek V4 Pro 很接近。原始資料也提到,它在 provider profile 裡有 -4 分的 regional accessibility 調整,這對部署團隊很實際。

模型採購不是只看分數。你還要看供應商、延遲、穩定性、上下文長度、以及你自己的請求型態。資料中也把 MiMo-V2-Pro、MiMo-V2.5、Kimi K2.6 列成附近選項。這表示它不是孤島,而是同一個競爭帶上的一員。
如果你的工作只有短 prompt,那這顆模型太大材小用。如果你處理的是大型 repo、長文件、agent loop,1M 上下文就很有感。這不是抽象優勢,是會直接影響產品可用性的差異。
- MiMo-V2.5-Pro:1M context,$0.435 / $0.87
- DeepSeek V4 Pro:同價位帶,適合直接對照
- MiMo-V2-Pro:較低階兄弟型號
- Kimi K2.6:同級競品之一
如果你的產品常常要讀一整個專案資料夾,這顆模型就值得試。反過來,如果你只是做客服 FAQ,它會顯得太重。
誰該先試這顆模型
我會先把它丟給三種團隊。第一種是軟體團隊。可以拿來做 code review helper、repo search、issue triage。第二種是營運團隊。可以做文件整理、工單分類、流程判斷。第三種是研究團隊。適合長文閱讀、結構化抽取、跨文件推理。
原始資料也給了幾個很實際的營運數字。平均 uptime 是 99%,最佳 latency 是 423ms,throughput 是 49 tok/s,還有 4/4 active endpoints。這些數字不浪漫,但很重要。因為模型不是只看榜單,還要看你能不能穩定呼叫。
限制也很明確。這顆版本沒有 vision。你如果要做圖片理解、螢幕分析、或 multimodal agent,這顆就不對路。小米這次的策略很像是先把文字能力做深,再去碰其他模態。
如果你想看別家怎麼切分能力,可以對照我們對 Anthropic Claude Fable 5 的整理。不同廠商在 general reasoning、coding、部署方式上,切法差很多。
“The best models are the ones that fit the workflow, not the ones that look best on a chart.”
這句是 Anthropic 創辦人 Dario Amodei 的公開觀點延伸。拿來看 MiMo-V2.5-Pro 很合適。因為這顆模型的價值,不在於什麼都想做,而在於它很清楚自己該做什麼。
這顆模型的背景,值得補一下
現在的 LLM 市場很擠。大家都在講 benchmark,但真正買單的是開發者和產品團隊。你要的是穩定、便宜、可控、能接 API、能吃長上下文。MiMo-V2.5-Pro 的設計,就是往這個方向走。
另外,1M token 上下文不是裝飾品。它會影響整個工作流。你可以把多個文件、長對話、工具回傳、甚至一些歷史紀錄一起塞進去。這對 agent 系統很重要,因為 agent 最怕上下文太短,做兩步就忘記前一步。
從產業角度看,這類模型也反映出一件事。現在不是只有美國大廠在做高階 LLM。中國與亞洲廠商也在把 text model、coding model、agent model 做得很細。對開發者來說,選擇變多了,壓力也變大了。
我會怎麼看這顆模型
MiMo-V2.5-Pro 很像一顆「工作型」模型。它不是拿來炫技的。它是拿來處理大量文字、長文件、工具鏈、程式碼流程的。這種模型如果跑得穩,實用價值會很高。
我的判斷很直接。你如果正在做內部知識庫、code assistant、長文摘要、文件 agent,這顆值得排進測試清單。你如果想做影像、簡報、或多模態互動,那就先跳過。別硬塞,會浪費時間。
接下來最值得觀察的,不是它會不會上新聞,而是團隊會不會真的把它接進產品。我的預測是,只要你的工作流真的吃長上下文,這顆模型會比很多看起來更花俏的選項更常被用到。