[MODEL] 7 分鐘閱讀OraCore 編輯部

小米 MiMo 把 1T 模型推到 1000 tokens/s

小米 MiMo-V2.5-Pro-UltraSpeed 把 1T 模型推到最高 1000 tokens/s,並搭配新定價與 2026 年舊模型退場時程。

分享 LinkedIn
小米 MiMo 把 1T 模型推到 1000 tokens/s

小米的 MiMo-V2.5-Pro-UltraSpeed 是一個 1T 模型,最高可到 1000 tokens/s。

說真的,這個數字很誇張。Xiaomi MiMo API Open Platform 把一個 trillion-parameter 模型,直接丟到高速輸出那一側。它還順手放上限時價格,外加舊模型的退場日期。

這種做法很直白。你不是只在買模型能力。你是在買回應速度、切換成本,還有一個很明確的遷移時間表。對開發者來說,這比空話實際多了。

指標MiMo-V2.5-Pro-UltraSpeedMiMo-V2.5-Pro
模型規模1T parameters本頁未列出
輸出速度500 到 1000 tokens/s50 到 100 tokens/s
輸入 cache hit 價格¥0.075 / million tokens¥0.025 / million tokens
輸入 cache miss 價格¥9 / million tokens¥3 / million tokens
輸出價格¥18 / million tokens¥6 / million tokens
試用輸出價格$2.61 / million tokens$0.87 / million tokens

小米到底在賣什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這個產品的重點,不是單純把模型做大。小米把它包成一個「UltraSpeed experience mode」。也就是說,這不是一般的 API 模式,而是偏向低延遲互動場景的特別檔位。它還有每日額度控制,而且只開放給核准用戶。

小米 MiMo 把 1T 模型推到 1000 tokens/s

講白了,小米在賣的是「快」。很多模型廠商都會講品質、講推理能力、講多模態。可是到了實際上線,開發者最常罵的,還是卡頓。使用者不會因為模型多 10 分鐘思考而鼓掌。使用者只會覺得你系統慢。

所以這個產品的定位很清楚。它不是拿來拼最低成本。它是拿來拼體感。當回應時間從「等一下」變成「像即時」,產品設計就會完全不同。

  • MiMo-V2.5-Pro-UltraSpeed 主打 1T flagship model。
  • 官方標示的輸出速度是 500 到 1000 tokens/s。
  • 目前是核准制,還有每日容量限制。
  • 支援文字輸入與文字輸出。

價格為什麼會讓人皺眉

看價格表就知道,小米沒有打算把 UltraSpeed 做成便宜貨。它的每一項收費,都比標準 MiMo-V2.5-Pro 高。這代表它不是在比誰省錢,而是在比誰願意為延遲付費。

這種定價很像雲端上的高效能機型。你可以不用,但你一旦需要,就很難回頭。像客服助理、交易輔助、風控判斷、即時程式碼補全,這些場景都很吃反應時間。慢一秒,體感就差很多。

小米自己也很直接。它在推薦場景裡提到市場分析、風控、科研和 coding assistance。這些工作有個共通點,就是答案晚到就沒價值。這不是學術展示而已,這是拿來進流程的。

“When breaking news drops, the model analyzes market impact and generates trading signals within milliseconds — closing the decision loop before the market moves.”

這句話出自小米的推薦場景。它幾乎把產品定位寫死了。你如果做的是秒級決策系統,這種速度很有吸引力。你如果只是做聊天機器人,那可能就有點太豪華了。

技術上怎麼把速度拉上去

小米沒有把這件事說成硬體奇蹟。它把速度提升歸功於演算法和系統層的組合。這點很重要,因為很多人一看到 1T 模型,就會先想到 GPU 堆料。

小米 MiMo 把 1T 模型推到 1000 tokens/s

它列出的技術組合有四個:FP4 mixed-precision quantization、DFlash speculative decoding、TileRT system-level optimization、heterogeneous pipeline collaboration。翻成白話,就是把部分權重壓縮、用區塊方式預測、讓 GPU pipeline 更常駐,還把運算和通訊拆得更細。

這類做法在 LLM 服務端很常見,但小米把它包成一個很強的速度敘事。重點不是哪個名詞比較炫。重點是它想證明一件事:不用自研晶片,也能把吞吐往上拉。

  • FP4 只套在 MoE experts,其他部分保留原始精度。
  • DFlash 用的是 block-level masked parallel prediction。
  • TileRT 強調 compute pipeline 常駐在 GPU。
  • 官方主張可在不靠 custom silicon 的情況下衝到 1000 tokens/s。

如果這套在真實流量下也穩,那就很有意思。因為很多廠商會講模型品質,但一到推理成本與延遲,就開始閃躲。小米這次是直接把速度放到台面上,逼大家看。

跟標準 Pro 版差在哪

UltraSpeed 和標準 MiMo-V2.5-Pro 的差距很明確。輸出價格是 ¥18 對 ¥6。輸入 cache hit 是 ¥0.075 對 ¥0.025。cache miss 則是 ¥9 對 ¥3。這不是小差異,這是直接三倍。

美元價格也一樣。UltraSpeed 的輸出是 $2.61 / million tokens,Pro 是 $0.87。輸入 cache miss 則是 $1.305 對 $0.435。對高流量產品來說,這些差額會很快堆起來。

所以問題不是「UltraSpeed 有沒有比較強」。問題是「速度值不值得這個價差」。如果你的產品有明顯的互動壓力,答案可能是值得。像即時客服、程式輔助、決策摘要,這些地方都很看重反應時間。

  • UltraSpeed 輸出 TPS:500 到 1000。
  • Pro 輸出 TPS:50 到 100。
  • UltraSpeed 輸出單價:¥18 / million tokens。
  • Pro 輸出單價:¥6 / million tokens。

這個 5 倍到 10 倍的速度差,才是重點。小米不是在賣「稍微快一點」。它是在賣一種新的使用節奏。使用者還沒意識到模型在想,答案就已經出來了。

開發者要先處理什麼

遷移通知最好不要拖。小米說 MiMo-V2-ProMiMo-V2-Pro Omni 會在 2026 年 6 月 1 日 00:00 GMT+8 自動路由到 V2.5,並在 6 月 30 日完全停用舊名稱。

這種時程很實際,也很煩。你如果已經接了 API,就得先測價格、吞吐、工具呼叫行為,還有 prompt 是否需要調整。等到路由真的切過去,才回頭改,通常都會很痛。

如果你現在只是評估階段,那就更簡單。先問自己一件事:你要的是最便宜的 token,還是最即時的回應?如果你的產品會被延遲打到,那速度就是成本的一部分,不是附加價值。

我覺得這次最值得看的,不是 1T 這個數字本身,而是小米把模型、價格、退場時間一起綁起來。這表示它不是只想做 demo。它想讓開發者真的把這套東西排進產品路線圖。

這波對市場的意義

大型模型市場現在很擠。大家都在比參數、比 benchmark、比多模態。可是實際落地時,很多公司最後還是在比延遲、比成本、比穩定性。這次小米的做法,剛好把焦點拉回這三件事。

台灣開發者來說,這件事也不難理解。你做軟體,不會只看模型多大。你會看伺服器怎麼撐、API 怎麼收費、資料流怎麼走。當一個 1T 模型可以跑到 1000 tokens/s,討論重點就不再只是「能不能做」,而是「值不值得接」。

接下來真正該驗證的,是這個速度在真實負載下能不能維持。Demo 很會演。真實流量很會打臉。要是它真的穩,小米就不只是在賣模型,而是在賣一個新的服務節奏。

結論很簡單

如果你做的是高互動、高延遲敏感的產品,這類 UltraSpeed 模式值得試。先拿小流量做壓測,再看成本能不能回本。不要只看 1000 tokens/s 這個標題,還要看你的使用者到底願不願意為這個速度買單。

我會先盯兩件事。第一,實測吞吐能不能接近官方數字。第二,2026 年 6 月的遷移會不會影響現有整合。這兩件事會決定它是漂亮規格,還是真能進 production。