小米 MiMo 把 1T 模型推到 1000 tokens/s

OraCore Editors

返回首頁

[MODEL] 2026年6月11日7 分鐘閱讀OraCore 編輯部

小米 MiMo 把 1T 模型推到 1000 tokens/s

小米 MiMo-V2.5-Pro-UltraSpeed 把 1T 模型推到最高 1000 tokens/s，並搭配新定價與 2026 年舊模型退場時程。

分享 LinkedIn

小米的 MiMo-V2.5-Pro-UltraSpeed 是一個 1T 模型，最高可到 1000 tokens/s。

說真的，這個數字很誇張。Xiaomi MiMo API Open Platform 把一個 trillion-parameter 模型，直接丟到高速輸出那一側。它還順手放上限時價格，外加舊模型的退場日期。

這種做法很直白。你不是只在買模型能力。你是在買回應速度、切換成本，還有一個很明確的遷移時間表。對開發者來說，這比空話實際多了。

指標	MiMo-V2.5-Pro-UltraSpeed	MiMo-V2.5-Pro
模型規模	1T parameters	本頁未列出
輸出速度	500 到 1000 tokens/s	50 到 100 tokens/s
輸入 cache hit 價格	¥0.075 / million tokens	¥0.025 / million tokens
輸入 cache miss 價格	¥9 / million tokens	¥3 / million tokens
輸出價格	¥18 / million tokens	¥6 / million tokens
試用輸出價格	$2.61 / million tokens	$0.87 / million tokens

小米到底在賣什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這個產品的重點，不是單純把模型做大。小米把它包成一個「UltraSpeed experience mode」。也就是說，這不是一般的 API 模式，而是偏向低延遲互動場景的特別檔位。它還有每日額度控制，而且只開放給核准用戶。

講白了，小米在賣的是「快」。很多模型廠商都會講品質、講推理能力、講多模態。可是到了實際上線，開發者最常罵的，還是卡頓。使用者不會因為模型多 10 分鐘思考而鼓掌。使用者只會覺得你系統慢。

所以這個產品的定位很清楚。它不是拿來拼最低成本。它是拿來拼體感。當回應時間從「等一下」變成「像即時」，產品設計就會完全不同。

MiMo-V2.5-Pro-UltraSpeed 主打 1T flagship model。
官方標示的輸出速度是 500 到 1000 tokens/s。
目前是核准制，還有每日容量限制。
支援文字輸入與文字輸出。

價格為什麼會讓人皺眉

看價格表就知道，小米沒有打算把 UltraSpeed 做成便宜貨。它的每一項收費，都比標準 MiMo-V2.5-Pro 高。這代表它不是在比誰省錢，而是在比誰願意為延遲付費。

這種定價很像雲端上的高效能機型。你可以不用，但你一旦需要，就很難回頭。像客服助理、交易輔助、風控判斷、即時程式碼補全，這些場景都很吃反應時間。慢一秒，體感就差很多。

小米自己也很直接。它在推薦場景裡提到市場分析、風控、科研和 coding assistance。這些工作有個共通點，就是答案晚到就沒價值。這不是學術展示而已，這是拿來進流程的。

“When breaking news drops, the model analyzes market impact and generates trading signals within milliseconds — closing the decision loop before the market moves.”

這句話出自小米的推薦場景。它幾乎把產品定位寫死了。你如果做的是秒級決策系統，這種速度很有吸引力。你如果只是做聊天機器人，那可能就有點太豪華了。

技術上怎麼把速度拉上去

小米沒有把這件事說成硬體奇蹟。它把速度提升歸功於演算法和系統層的組合。這點很重要，因為很多人一看到 1T 模型，就會先想到 GPU 堆料。

它列出的技術組合有四個：FP4 mixed-precision quantization、DFlash speculative decoding、TileRT system-level optimization、heterogeneous pipeline collaboration。翻成白話，就是把部分權重壓縮、用區塊方式預測、讓 GPU pipeline 更常駐，還把運算和通訊拆得更細。

這類做法在 LLM 服務端很常見，但小米把它包成一個很強的速度敘事。重點不是哪個名詞比較炫。重點是它想證明一件事：不用自研晶片，也能把吞吐往上拉。

FP4 只套在 MoE experts，其他部分保留原始精度。
DFlash 用的是 block-level masked parallel prediction。
TileRT 強調 compute pipeline 常駐在 GPU。
官方主張可在不靠 custom silicon 的情況下衝到 1000 tokens/s。

如果這套在真實流量下也穩，那就很有意思。因為很多廠商會講模型品質，但一到推理成本與延遲，就開始閃躲。小米這次是直接把速度放到台面上，逼大家看。

跟標準 Pro 版差在哪

UltraSpeed 和標準 MiMo-V2.5-Pro 的差距很明確。輸出價格是 ¥18 對 ¥6。輸入 cache hit 是 ¥0.075 對 ¥0.025。cache miss 則是 ¥9 對 ¥3。這不是小差異，這是直接三倍。

美元價格也一樣。UltraSpeed 的輸出是 $2.61 / million tokens，Pro 是 $0.87。輸入 cache miss 則是 $1.305 對 $0.435。對高流量產品來說，這些差額會很快堆起來。

所以問題不是「UltraSpeed 有沒有比較強」。問題是「速度值不值得這個價差」。如果你的產品有明顯的互動壓力，答案可能是值得。像即時客服、程式輔助、決策摘要，這些地方都很看重反應時間。

UltraSpeed 輸出 TPS：500 到 1000。
Pro 輸出 TPS：50 到 100。
UltraSpeed 輸出單價：¥18 / million tokens。
Pro 輸出單價：¥6 / million tokens。

這個 5 倍到 10 倍的速度差，才是重點。小米不是在賣「稍微快一點」。它是在賣一種新的使用節奏。使用者還沒意識到模型在想，答案就已經出來了。

開發者要先處理什麼

遷移通知最好不要拖。小米說 MiMo-V2-Pro 和 MiMo-V2-Pro Omni 會在 2026 年 6 月 1 日 00:00 GMT+8 自動路由到 V2.5，並在 6 月 30 日完全停用舊名稱。

這種時程很實際，也很煩。你如果已經接了 API，就得先測價格、吞吐、工具呼叫行為，還有 prompt 是否需要調整。等到路由真的切過去，才回頭改，通常都會很痛。

如果你現在只是評估階段，那就更簡單。先問自己一件事：你要的是最便宜的 token，還是最即時的回應？如果你的產品會被延遲打到，那速度就是成本的一部分，不是附加價值。

我覺得這次最值得看的，不是 1T 這個數字本身，而是小米把模型、價格、退場時間一起綁起來。這表示它不是只想做 demo。它想讓開發者真的把這套東西排進產品路線圖。

這波對市場的意義

大型模型市場現在很擠。大家都在比參數、比 benchmark、比多模態。可是實際落地時，很多公司最後還是在比延遲、比成本、比穩定性。這次小米的做法，剛好把焦點拉回這三件事。

對台灣開發者來說，這件事也不難理解。你做軟體，不會只看模型多大。你會看伺服器怎麼撐、API 怎麼收費、資料流怎麼走。當一個 1T 模型可以跑到 1000 tokens/s，討論重點就不再只是「能不能做」，而是「值不值得接」。

接下來真正該驗證的，是這個速度在真實負載下能不能維持。Demo 很會演。真實流量很會打臉。要是它真的穩，小米就不只是在賣模型，而是在賣一個新的服務節奏。

結論很簡單

如果你做的是高互動、高延遲敏感的產品，這類 UltraSpeed 模式值得試。先拿小流量做壓測，再看成本能不能回本。不要只看 1000 tokens/s 這個標題，還要看你的使用者到底願不願意為這個速度買單。

我會先盯兩件事。第一，實測吞吐能不能接近官方數字。第二，2026 年 6 月的遷移會不會影響現有整合。這兩件事會決定它是漂亮規格，還是真能進 production。

// 相關文章

小米 MiMo 把 1T 模型推到 1000 tokens/s

小米到底在賣什麼

訂閱 AI 趨勢週報

價格為什麼會讓人皺眉

技術上怎麼把速度拉上去

跟標準 Pro 版差在哪

開發者要先處理什麼

這波對市場的意義

結論很簡單

谷歌先推 Gemini 3.6 Flash，Pro 仍缺席

Kimi K3 逼矽谷選邊站

Opus 5 讓你少碰拒答

Claude Opus 5 以更低價格搶企業單

OpenAI 列出 GPT-5.6 三檔定價

Gemini 3.6 Flash 證明 Google 把效率放在 hype 前面