[MODEL] 7 分鐘閱讀OraCore 編輯部

小米 MiMo-V2.5-Pro:價格、評測與限制

小米 MiMo-V2.5-Pro 是一款 text-only 模型,主打 1M token 長上下文、程式碼與 agent 工作,價格落在中段,適合大型文件與多步驟任務。

分享 LinkedIn
小米 MiMo-V2.5-Pro:價格、評測與限制

小米 MiMo-V2.5-Pro 是一款 text-only 模型,主打 1M token 長上下文、程式碼與 agent 工作,價格落在中段,適合大型文件與多步驟任務。

小米在 2026 年 4 月 22 日推出 MiMo-V2.5-Pro。這顆模型很直接,不走花俏路線。它給你 1,048,576 token 上下文,還有 131,072 token 的最大輸出長度。

價格也很清楚。輸入每 100 萬 token 要 $0.435,輸出每 100 萬 token 要 $0.87。這種設定很像是給重度使用者、工程團隊、文件系統和 agent 流程準備的,不是拿來做幾張圖就結束。

它現在可透過多個供應商使用,包括 Xiaomi、Novita、DigitalOceanDeepInfra。講白了,這是一顆很務實的 text-only 旗艦模型。

指標數值意義
發布日期2026-04-22代表這是近期旗艦版本
上下文長度1,048,576 tokens適合超長文件與多檔案工作
輸入價格$0.435 / 1M tokens屬於中段價位
輸出價格$0.87 / 1M tokens長輸出成本仍算可控
Intelligence index42.2反映整體推理表現
Coding index60.2顯示程式能力不差
Agentic index68.7代表工具使用與多步驟任務表現不錯

小米這次到底在賣什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

MiMo-V2.5-Pro 是 Xiaomi 這個家族裡的高階 text model。它的定位很明確,就是給 coding、tool use、function calling、長篇推理這些工作用。它不是 multimodal 全能機。它只做文字,而且只做文字。

小米 MiMo-V2.5-Pro:價格、評測與限制

這種定位其實很聰明。很多模型發表都愛把能力講得很滿。結果一看,什麼都能碰一點,什麼都不夠深。小米這次反而收斂很多。它把重點放在 agent pipeline、軟體工程助理、文件分析系統這類場景。

Artificial Analysis 的頁面上,這顆模型的 intelligence index 是 42.2,coding index 是 60.2,agentic index 是 68.7。這三個數字很像一張名片。你如果在看 production 可用性,這些比宣傳詞有用多了。

  • text-only 模型,沒有原生視覺能力
  • 1M token 上下文,適合超長文件
  • 支援 function calling 與工具使用
  • 價格落在專業模型的中段區間

評測結果看起來很對題

這顆模型的 benchmark 走向,跟它的定位很一致。它在科學推理、指令遵循、agent 任務上都有不錯表現。公開資料顯示,它在 GPQA Diamond 拿到 86.6%,在 τ²-Bench 拿到 94.2%,在 IFBench 拿到 79.9%,在 LCR 拿到 73.3%。

這些數字不是拿來炫耀而已。GPQA Diamond 測的是研究所等級科學題。τ²-Bench 看的是對話型 agent 行為。IFBench 看指令遵循。LCR 則是長上下文可靠度。把它們放一起看,會發現 MiMo-V2.5-Pro 很像是為「長文件 + 多步驟 + 工具鏈」這種工作設計的。

在這裡,Artificial Analysis 的模型頁 有一句話很直白:它很會跟著指令走,也很會用工具。說真的,這比一堆行銷文案有說服力。

“The model is very good at following instructions and using tools, which makes it suitable for long, document-heavy workflows.”

如果你在做內部助理、工單系統、repo 搜尋、程式碼修改,這句話就很重要。因為真正麻煩的不是單次回答,而是模型能不能把一串動作穩定做完。

  • GPQA Diamond:86.6%
  • τ²-Bench:94.2%
  • IFBench:79.9%
  • LCR:73.3%

價格和同級對手怎麼比

MiMo-V2.5-Pro 的價格很容易拿來跟別人比。每 100 萬 input token $0.435、output token $0.87,這個區間跟 DeepSeek V4 Pro 很接近。原始資料也提到,它在 provider profile 裡有 -4 分的 regional accessibility 調整,這對部署團隊很實際。

小米 MiMo-V2.5-Pro:價格、評測與限制

模型採購不是只看分數。你還要看供應商、延遲、穩定性、上下文長度、以及你自己的請求型態。資料中也把 MiMo-V2-ProMiMo-V2.5Kimi K2.6 列成附近選項。這表示它不是孤島,而是同一個競爭帶上的一員。

如果你的工作只有短 prompt,那這顆模型太大材小用。如果你處理的是大型 repo、長文件、agent loop,1M 上下文就很有感。這不是抽象優勢,是會直接影響產品可用性的差異。

  • MiMo-V2.5-Pro:1M context,$0.435 / $0.87
  • DeepSeek V4 Pro:同價位帶,適合直接對照
  • MiMo-V2-Pro:較低階兄弟型號
  • Kimi K2.6:同級競品之一

如果你的產品常常要讀一整個專案資料夾,這顆模型就值得試。反過來,如果你只是做客服 FAQ,它會顯得太重。

誰該先試這顆模型

我會先把它丟給三種團隊。第一種是軟體團隊。可以拿來做 code review helper、repo search、issue triage。第二種是營運團隊。可以做文件整理、工單分類、流程判斷。第三種是研究團隊。適合長文閱讀、結構化抽取、跨文件推理。

原始資料也給了幾個很實際的營運數字。平均 uptime 是 99%,最佳 latency 是 423ms,throughput 是 49 tok/s,還有 4/4 active endpoints。這些數字不浪漫,但很重要。因為模型不是只看榜單,還要看你能不能穩定呼叫。

限制也很明確。這顆版本沒有 vision。你如果要做圖片理解、螢幕分析、或 multimodal agent,這顆就不對路。小米這次的策略很像是先把文字能力做深,再去碰其他模態。

如果你想看別家怎麼切分能力,可以對照我們對 Anthropic Claude Fable 5 的整理。不同廠商在 general reasoning、coding、部署方式上,切法差很多。

“The best models are the ones that fit the workflow, not the ones that look best on a chart.”

這句是 Anthropic 創辦人 Dario Amodei 的公開觀點延伸。拿來看 MiMo-V2.5-Pro 很合適。因為這顆模型的價值,不在於什麼都想做,而在於它很清楚自己該做什麼。

這顆模型的背景,值得補一下

現在的 LLM 市場很擠。大家都在講 benchmark,但真正買單的是開發者和產品團隊。你要的是穩定、便宜、可控、能接 API、能吃長上下文。MiMo-V2.5-Pro 的設計,就是往這個方向走。

另外,1M token 上下文不是裝飾品。它會影響整個工作流。你可以把多個文件、長對話、工具回傳、甚至一些歷史紀錄一起塞進去。這對 agent 系統很重要,因為 agent 最怕上下文太短,做兩步就忘記前一步。

從產業角度看,這類模型也反映出一件事。現在不是只有美國大廠在做高階 LLM。中國與亞洲廠商也在把 text model、coding model、agent model 做得很細。對開發者來說,選擇變多了,壓力也變大了。

我會怎麼看這顆模型

MiMo-V2.5-Pro 很像一顆「工作型」模型。它不是拿來炫技的。它是拿來處理大量文字、長文件、工具鏈、程式碼流程的。這種模型如果跑得穩,實用價值會很高。

我的判斷很直接。你如果正在做內部知識庫、code assistant、長文摘要、文件 agent,這顆值得排進測試清單。你如果想做影像、簡報、或多模態互動,那就先跳過。別硬塞,會浪費時間。

接下來最值得觀察的,不是它會不會上新聞,而是團隊會不會真的把它接進產品。我的預測是,只要你的工作流真的吃長上下文,這顆模型會比很多看起來更花俏的選項更常被用到。