[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-xiaomi-mimo-1t-model-1000-tokens-per-second-zh":3,"article-related-xiaomi-mimo-1t-model-1000-tokens-per-second-zh":32,"series-model-release-19af5701-87e3-4774-be7a-8aebcbeef2a5":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":28,"created_at":29,"published_at":30,"topic_cluster_id":31},"19af5701-87e3-4774-be7a-8aebcbeef2a5","xiaomi-mimo-1t-model-1000-tokens-per-second-zh","小米 MiMo 把 1T 模型推到 1000 tokens\u002Fs","\u003Cp data-speakable=\"summary\">小米的 \u003Ca href=\"\u002Fnews\u002Fmimo-1000-tps-1t-model-ultraspeed-zh\">MiMo\u003C\u002Fa>-V2.5-Pro-UltraSpeed 是一個 1T 模型，最高可到 1000 tokens\u002Fs。\u003C\u002Fp>\u003Cp>說真的，這個數字很誇張。\u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">Xiaomi MiMo API Open Platform\u003C\u002Fa> 把一個 trillion-parameter 模型，直接丟到高速輸出那一側。它還順手放上限時價格，外加舊模型的退場日期。\u003C\u002Fp>\u003Cp>這種做法很直白。你不是只在買模型能力。你是在買回應速度、切換成本，還有一個很明確的遷移時間表。對開發者來說，這比空話實際多了。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>MiMo-V2.5-Pro-UltraSpeed\u003C\u002Fth>\u003Cth>MiMo-V2.5-Pro\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>模型規模\u003C\u002Ftd>\u003Ctd>1T parameters\u003C\u002Ftd>\u003Ctd>本頁未列出\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>輸出速度\u003C\u002Ftd>\u003Ctd>500 到 1000 tokens\u002Fs\u003C\u002Ftd>\u003Ctd>50 到 100 tokens\u002Fs\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>輸入 cache hit 價格\u003C\u002Ftd>\u003Ctd>¥0.075 \u002F million tokens\u003C\u002Ftd>\u003Ctd>¥0.025 \u002F million tokens\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>輸入 cache miss 價格\u003C\u002Ftd>\u003Ctd>¥9 \u002F million tokens\u003C\u002Ftd>\u003Ctd>¥3 \u002F million tokens\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>輸出價格\u003C\u002Ftd>\u003Ctd>¥18 \u002F million tokens\u003C\u002Ftd>\u003Ctd>¥6 \u002F million tokens\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>試用輸出價格\u003C\u002Ftd>\u003Ctd>$2.61 \u002F million tokens\u003C\u002Ftd>\u003Ctd>$0.87 \u002F million tokens\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>小米到底在賣什麼\u003C\u002Fh2>\u003Cp>這個產品的重點，不是單純把模型做大。小米把它包成一個「UltraSpeed experience mode」。也就是說，這不是一般的 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 模式，而是偏向低延遲互動場景的特別檔位。它還有每日額度控制，而且只開放給核准用戶。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781129889723-wz61.png\" alt=\"小米 MiMo 把 1T 模型推到 1000 tokens\u002Fs\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>講白了，小米在賣的是「快」。很多模型廠商都會講品質、講推理能力、講多模態。可是到了實際上線，開發者最常罵的，還是卡頓。使用者不會因為模型多 10 分鐘思考而鼓掌。使用者只會覺得你系統慢。\u003C\u002Fp>\u003Cp>所以這個產品的定位很清楚。它不是拿來拼最低成本。它是拿來拼體感。當回應時間從「等一下」\u003Ca href=\"\u002Fnews\u002Fgoogle-gemini-latest-update-maps-zh\">變成\u003C\u002Fa>「像即時」，產品設計就會完全不同。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">MiMo-V2.5-Pro-UltraSpeed\u003C\u002Fa> 主打 1T flagship model。\u003C\u002Fli>\u003Cli>官方標示的輸出速度是 500 到 1000 tokens\u002Fs。\u003C\u002Fli>\u003Cli>目前是核准制，還有每日容量限制。\u003C\u002Fli>\u003Cli>支援文字輸入與文字輸出。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>價格為什麼會讓人皺眉\u003C\u002Fh2>\u003Cp>看價格表就知道，小米沒有打算把 UltraSpeed 做成便宜貨。它的每一項收費，都比標準 \u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">MiMo-V2.5-Pro\u003C\u002Fa> 高。這代表它不是在比誰省錢，而是在比誰願意為延遲付費。\u003C\u002Fp>\u003Cp>這種定價很像雲端上的高效能機型。你可以不用，但你一旦需要，就很難回頭。像客服助理、交易輔助、風控判斷、即時程式碼補全，這些場景都很吃反應時間。慢一秒，體感就差很多。\u003C\u002Fp>\u003Cp>小米自己也很直接。它在推薦場景裡提到市場分析、風控、科研和 coding assistance。這些工作有個共通點，就是答案晚到就沒價值。這不是學術展示而已，這是拿來進流程的。\u003C\u002Fp>\u003Cblockquote>“When breaking news drops, the model analyzes market impact and generates trading signals within milliseconds — closing the decision loop before the market moves.”\u003C\u002Fblockquote>\u003Cp>這句話出自小米的推薦場景。它幾乎把產品定位寫死了。你如果做的是秒級決策系統，這種速度很有吸引力。你如果只是做聊天機器人，那可能就有點太豪華了。\u003C\u002Fp>\u003Ch2>技術上怎麼把速度拉上去\u003C\u002Fh2>\u003Cp>小米沒有把這件事說成硬體奇蹟。它把速度提升歸功於演算法和系統層的組合。這點很重要，因為很多人一看到 1T 模型，就會先想到 GPU 堆料。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781129881353-6aru.png\" alt=\"小米 MiMo 把 1T 模型推到 1000 tokens\u002Fs\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>它列出的技術組合有四個：\u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">FP4 mixed-precision quantization\u003C\u002Fa>、DFlash speculative decoding、TileRT system-level optimization、heterogeneous pipeline collaboration。翻成白話，就是把部分權重壓縮、用區塊\u003Ca href=\"\u002Fnews\u002Fgrok-updates-change-how-i-code-zh\">方式\u003C\u002Fa>預測、讓 GPU pipeline 更常駐，還把運算和通訊拆得更細。\u003C\u002Fp>\u003Cp>這類做法在 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 服務端很常見，但小米把它包成一個很強的速度敘事。重點不是哪個名詞比較炫。重點是它想證明一件事：不用自研晶片，也能把吞吐往上拉。\u003C\u002Fp>\u003Cul>\u003Cli>FP4 只套在 MoE experts，其他部分保留原始精度。\u003C\u002Fli>\u003Cli>DFlash 用的是 block-level masked parallel prediction。\u003C\u002Fli>\u003Cli>TileRT 強調 compute pipeline 常駐在 GPU。\u003C\u002Fli>\u003Cli>官方主張可在不靠 custom silicon 的情況下衝到 1000 tokens\u002Fs。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果這套在真實流量下也穩，那就很有意思。因為很多廠商會講模型品質，但一到推理成本與延遲，就開始閃躲。小米這次是直接把速度放到台面上，逼大家看。\u003C\u002Fp>\u003Ch2>跟標準 Pro 版差在哪\u003C\u002Fh2>\u003Cp>UltraSpeed 和標準 \u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">MiMo-V2.5-Pro\u003C\u002Fa> 的差距很明確。輸出價格是 ¥18 對 ¥6。輸入 cache hit 是 ¥0.075 對 ¥0.025。cache miss 則是 ¥9 對 ¥3。這不是小差異，這是直接三倍。\u003C\u002Fp>\u003Cp>美元價格也一樣。UltraSpeed 的輸出是 $2.61 \u002F million tokens，Pro 是 $0.87。輸入 cache miss 則是 $1.305 對 $0.435。對高流量產品來說，這些差額會很快堆起來。\u003C\u002Fp>\u003Cp>所以問題不是「UltraSpeed 有沒有比較強」。問題是「速度值不值得這個價差」。如果你的產品有明顯的互動壓力，答案可能是值得。像即時客服、程式輔助、決策摘要，這些地方都很看重反應時間。\u003C\u002Fp>\u003Cul>\u003Cli>UltraSpeed 輸出 TPS：500 到 1000。\u003C\u002Fli>\u003Cli>Pro 輸出 TPS：50 到 100。\u003C\u002Fli>\u003Cli>UltraSpeed 輸出單價：¥18 \u002F million tokens。\u003C\u002Fli>\u003Cli>Pro 輸出單價：¥6 \u002F million tokens。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這個 5 倍到 10 倍的速度差，才是重點。小米不是在賣「稍微快一點」。它是在賣一種新的使用節奏。使用者還沒意識到模型在想，答案就已經出來了。\u003C\u002Fp>\u003Ch2>開發者要先處理什麼\u003C\u002Fh2>\u003Cp>遷移通知最好不要拖。小米說 \u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Pro\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Pro Omni\u003C\u002Fa> 會在 2026 年 6 月 1 日 00:00 GMT+8 自動路由到 V2.5，並在 6 月 30 日完全停用舊名稱。\u003C\u002Fp>\u003Cp>這種時程很實際，也很煩。你如果已經接了 API，就得先測價格、吞吐、工具呼叫行為，還有 prompt 是否需要調整。等到路由真的切過去，才回頭改，通常都會很痛。\u003C\u002Fp>\u003Cp>如果你現在只是評估階段，那就更簡單。先問自己一件事：你要的是最便宜的 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa>，還是最即時的回應？如果你的產品會被延遲打到，那速度就是成本的一部分，不是附加價值。\u003C\u002Fp>\u003Cp>我覺得這次最值得看的，不是 1T 這個數字本身，而是小米把模型、價格、退場時間一起綁起來。這表示它不是只想做 demo。它想讓開發者真的把這套東西排進產品路線圖。\u003C\u002Fp>\u003Ch2>這波對市場的意義\u003C\u002Fh2>\u003Cp>大型模型市場現在很擠。大家都在比參數、比 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>、比多模態。可是實際落地時，很多公司最後還是在比延遲、比成本、比穩定性。這次小米的做法，剛好把焦點拉回這三件事。\u003C\u002Fp>\u003Cp>對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這件事也不難理解。你做軟體，不會只看模型多大。你會看伺服器怎麼撐、API 怎麼收費、資料流怎麼走。當一個 1T 模型可以跑到 1000 tokens\u002Fs，討論重點就不再只是「能不能做」，而是「值不值得接」。\u003C\u002Fp>\u003Cp>接下來真正該驗證的，是這個速度在真實負載下能不能維持。Demo 很會演。真實流量很會打臉。要是它真的穩，小米就不只是在賣模型，而是在賣一個新的服務節奏。\u003C\u002Fp>\u003Ch2>結論很簡單\u003C\u002Fh2>\u003Cp>如果你做的是高互動、高延遲敏感的產品，這類 UltraSpeed 模式值得試。先拿小流量做壓測，再看成本能不能回本。不要只看 1000 tokens\u002Fs 這個標題，還要看你的使用者到底願不願意為這個速度買單。\u003C\u002Fp>\u003Cp>我會先盯兩件事。第一，實測吞吐能不能接近官方數字。第二，2026 年 6 月的遷移會不會影響現有整合。這兩件事會決定它是漂亮規格，還是真能進 production。\u003C\u002Fp>","小米 MiMo-V2.5-Pro-UltraSpeed 把 1T 模型推到最高 1000 tokens\u002Fs，並搭配新定價與 2026 年舊模型退場時程。","platform.xiaomimimo.com","https:\u002F\u002Fplatform.xiaomimimo.com\u002Fdocs\u002Fen-US\u002Fmodel-intro\u002Fmimo-v2.5-pro-ultraspeed",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781129889723-wz61.png","model-release","zh","2c34e9fb-ebe7-46ca-996a-939d965159fd",[17,18,19,20,21,22,23],"小米 MiMo","1T 模型","1000 tokens\u002Fs","LLM API","推理速度","模型定價","UltraSpeed",[25,26,27],"MiMo-V2.5-Pro-UltraSpeed 主打 1T 模型與最高 1000 tokens\u002Fs。","UltraSpeed 價格高於標準 Pro 版，買的是速度，不是便宜。","舊模型名稱會在 2026 年 6 月退場，開發者要先做遷移測試。",2,"2026-06-10T22:17:35.161841+00:00","2026-06-10T22:17:35.154+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":33,"relatedLang":43,"relatedPosts":47},[34,35,37,39,41],{"name":21,"slug":21},{"name":18,"slug":36},"1t-模型",{"name":17,"slug":38},"小米-mimo",{"name":20,"slug":40},"llm-api",{"name":19,"slug":42},"1000-tokenss",{"id":15,"slug":44,"title":45,"language":46},"xiaomi-mimo-1t-model-1000-tokens-per-second-en","Xiaomi MiMo pushes 1T model to 1000 tokens\u002Fs","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"4fde468d-be9e-4013-a2e0-8b68ab4bf250","claude-fable-5-quiet-ai-release-week-zh","Claude Fable 5 讓這週像在降溫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781143383988-o40t.png","2026-06-11T02:02:38.955757+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"ef44efd1-dfaf-4d9e-8772-3a6d6f963f08","mistral-model-lineup-specialization-beats-giant-model-zh","Mistral 的模型陣容證明：專精勝過一個巨型模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781140675776-0e88.png","2026-06-11T01:17:28.295033+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"5bbd81ab-3cf8-4ca5-9fb0-569d8454697a","mimo-1000-tps-1t-model-ultraspeed-zh","MiMo 在 1T 模型跑到 1000 TPS","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781128990637-k4n1.png","2026-06-10T22:02:42.710101+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"9f16a688-3600-4305-aa9f-c62480e03eb1","google-gemini-latest-update-maps-zh","Gemini 把 Maps 變成對話介面","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781119077682-v9n8.png","2026-06-10T19:17:27.606098+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"be22e90e-25bf-46a2-b61a-0665559a69d8","ideogram-4-0-comfyui-first-test-zh","Ideogram 4.0 在 ComfyUI 首測的真實表現","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781118186153-rtjl.png","2026-06-10T19:02:33.328055+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"af1e6b52-469d-42aa-a9fc-539f4d65e9b3","chatgpt-adult-mode-paused-may-2026-zh","ChatGPT 成人模式仍未開放","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781105573638-ehrx.png","2026-06-10T15:32:26.046475+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]