[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-mimo-1000-tps-1t-model-ultraspeed-zh":3,"article-related-mimo-1000-tps-1t-model-ultraspeed-zh":35,"series-model-release-5bbd81ab-3cf8-4ca5-9fb0-569d8454697a":85},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":27,"views":31,"created_at":32,"published_at":33,"topic_cluster_id":34},"5bbd81ab-3cf8-4ca5-9fb0-569d8454697a","mimo-1000-tps-1t-model-ultraspeed-zh","MiMo 在 1T 模型跑到 1000 TPS","\u003Cp data-speakable=\"summary\">Xiaomi MiMo 和 TileRT 宣稱，1T 參數模型已能在一般 8-GPU 伺服器上跑到每秒 1000+ tokens。\u003C\u002Fp>\u003Cp>Xiaomi 的 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\" target=\"_blank\" rel=\"noopener\">MiMo\u003C\u002Fa> 團隊這次很敢講。它說 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fblog\u002Fmimo-tilert-1000tps\" target=\"_blank\" rel=\"noopener\">MiMo-V2.5-Pro-UltraSpeed\u003C\u002Fa> 首次把 1T 參數模型推到 1000+ tokens\u002Fs。重點是，它不是靠特規晶片堆出來的。官方說法是，這結果來自模型和系統一起設計，而且只用單一標準 8-GPU commodity node。\u003C\u002Fp>\u003Cp>這種數字很容易讓人皺眉。因為大家早就習慣一件事：模型越大，推論越慢。MiMo 這次直接把話題拉到另一邊。它說 UltraSpeed 模式比 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\" target=\"_blank\" rel=\"noopener\">MiMo-V2.5-Pro\u003C\u002Fa> 快三倍以上，但 API 價格也提高到 3 倍。講白了，就是拿錢換速度。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003Cth>意義\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>模型規模\u003C\u002Ftd>\u003Ctd>1T parameters\u003C\u002Ftd>\u003Ctd>這不是小 demo，是超大模型推論\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>速度宣稱\u003C\u002Ftd>\u003Ctd>1000+ tokens\u002Fs\u003C\u002Ftd>\u003Ctd>這是整篇新聞的核心數字\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>峰值圖表\u003C\u002Ftd>\u003Ctd>約 1200 tokens\u002Fs\u003C\u002Ftd>\u003Ctd>代表實測還能再往上\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>試用期間\u003C\u002Ftd>\u003Ctd>2026\u002F06\u002F09 到 2026\u002F06\u002F23\u003C\u002Ftd>\u003Ctd>這是限時、申請制服務\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>每日排隊上限\u003C\u002Ftd>\u003Ctd>每帳號 10 次\u003C\u002Ftd>\u003Ctd>資源明顯吃緊\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>單次 session 上限\u003C\u002Ftd>\u003Ctd>30 分鐘\u003C\u002Ftd>\u003Ctd>適合短時間測試，不適合長跑\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>這個速度數字到底有多兇\u003C\u002Fh2>\u003Cp>AI 速度數字很常被亂用。很多產品會拿小模型的 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa>\u002Fs 來吹，但那種數字對實際產品沒那麼有感。到了 1T 參數，情況就完全不同。200 tokens\u002Fs 和 1000 tokens\u002Fs 的差距，會直接改變你能不能做即時互動。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781128990637-k4n1.png\" alt=\"MiMo 在 1T 模型跑到 1000 TPS\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>MiMo 的說法很直接。只要模型回得夠快，它就不再像 batch 工具。它可以塞進 coding assistant、\u003Ca href=\"\u002Fnews\u002Flast30days-skill-best-reason-stop-trusting-search-alone-zh\">搜尋\u003C\u002Fa>、風控、交易訊號，甚至一些需要即時回應的內部系統。這不是純展示數字而已。這是在說，\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 的延遲開始影響產品形狀。\u003C\u002Fp>\u003Cp>我覺得更有意思的地方，是它把速度當成品質的一部分。當生成夠快，系統就能在同樣的牆鐘時間裡試更多推理路徑，再把不對的路徑丟掉。這比單看 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 分數更實際，因為真實工作流在乎的是等待時間。\u003C\u002Fp>\u003Cul>\u003Cli>MiMo 說 UltraSpeed 比標準 API 快約 10 倍。\u003C\u002Fli>\u003Cli>促銷 API 價格是原本的 3 倍。\u003C\u002Fli>\u003Cli>通過審核的使用者可在試用期免費聊天。\u003C\u002Fli>\u003Cli>每個帳號每天最多排隊 10 次。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>MiMo 和 TileRT 怎麼做到的\u003C\u002Fh2>\u003Cp>這次最值得看的，不是單一技巧，而是整套堆疊。Xiaomi 和 \u003Ca href=\"https:\u002F\u002Ftilert.ai\" target=\"_blank\" rel=\"noopener\">TileRT\u003C\u002Fa> 沒把重點放在特規硬體。它們反而把焦點放在 model-system co-design。這點很像在說：真正的瓶頸，不只是 GPU 數量。\u003C\u002Fp>\u003Cp>在模型端，MiMo 用了 FP4 量化，對象是 MoE experts。它也加了 DFlash，一種 speculative decoding 方法。這套方法走的是 block-level masked parallel prediction。講白了，就是讓模型一次猜一整塊 token，而不是一個一個慢慢猜。\u003C\u002Fp>\u003Cp>在系統端，TileRT 負責編譯和 kernels。它不是通用 runtime，而是針對這條 pipeline 調過的版本。MiMo 甚至直接拿 \u003Ca href=\"https:\u002F\u002Fwww.cerebras.net\" target=\"_blank\" rel=\"noopener\">Cerebras\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fgroq.com\" target=\"_blank\" rel=\"noopener\">Groq\u003C\u002Fa> 這類特規路線來對照。意思很明白：它想證明 commodity GPU 也能拚出很高吞吐。\u003C\u002Fp>\u003Cblockquote>\u003Cp>“We chose a different path: achieving even more impressive \u003Ca href=\"\u002Ftag\u002Finference\">inference\u003C\u002Fa> speed on commodity GPUs through model-system codesign alone.”\u003C\u002Fp>\u003C\u002Fblockquote>\u003Cp>這句話很直白。它不是在說晶片救一切。它是在說，模型的 decoding 行為，和底層執行系統要對得上。對不上的話，算力再多也會浪費。\u003C\u002Fp>\u003Cp>FP4 量化的重要性也很現實。超大模型最貴的地方，常常不是算，而是搬資料。參數越大，記憶體頻寬壓力越重。把 MoE experts 壓到較低精度，通常能減少 traffic，讓 decode loop 跑得更快。MiMo 的策略是只量化那部分，避免整體品質掉太多。\u003C\u002Fp>\u003Cp>DFlash 則是在解 speculative decoding 的老問題。傳統做法是小 draft model 先猜，大模型再驗證。問題是，draft 猜太慢，整套流程就卡住。MiMo 說 DFlash 改成整塊遮罩式並行預測，能提高 accepted token 的長度，也能少掉一些浪費。\u003C\u002Fp>\u003Cul>\u003Cli>模型端用了 FP4 量化。\u003C\u002Fli>\u003Cli>MoE experts 是主要量化對象。\u003C\u002Fli>\u003Cli>DFlash 採 block-level masked parallel prediction。\u003C\u002Fli>\u003Cli>TileRT 負責編譯與 kernel 優化。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>數字看起來漂亮，但代價也很清楚\u003C\u002Fh2>\u003Cp>這篇最像工程報告的地方，是它給了不少可對照的數字。像 speculative decoding，重點不是 draft 速度，而是接受率。接受率不夠高，系統就會一直做白工。那樣只是在浪費 GPU 時間。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781128989024-mqgl.png\" alt=\"MiMo 在 1T 模型跑到 1000 TPS\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>MiMo 提到，它把 block size 調成 8 tokens。這樣做的目的，是在驗證成本和並行度之間找平衡。block 太大，猜錯就浪費更多。block 太小，吞吐又拉不上來。這種取捨，才是 inference 系統真正的難題。\u003C\u002Fp>\u003Cp>它也公開了不同工作類型的接受長度。這很重要，因為它透露出 UltraSpeed 不同場景的表現差異。結構化任務通常比較容易吃到這套優化，像 coding 就比聊天更穩。\u003C\u002Fp>\u003Cul>\u003Cli>Coding acceptance length：6.30\u003C\u002Fli>\u003Cli>Math and reasoning acceptance length：5.56\u003C\u002Fli>\u003Cli>Agent acceptance length：4.29\u003C\u002Fli>\u003Cli>部分 coding 樣本可到 7.14\u002F8 的接受 token\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字告訴我們一件事。UltraSpeed 最吃香的場景，很可能是 \u003Ca href=\"\u002Fnews\u002Fgrok-updates-change-how-i-code-zh\">code\u003C\u002Fa>。這其實不意外。因為 coding \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 本來就很怕延遲。你每次等模型多半秒，開發節奏就會被打斷。\u003C\u002Fp>\u003Cp>MiMo 還提到 Sliding Window Attention。這種設計可以避免 draft 階段的計算量跟 context 長度一起膨脹。它也說訓練時把 mask-signal sampling 壓到 GPU-local shards，減少跨裝置通訊。這些細節很硬，但也很合理。大模型推論能不能快，常常就卡在通訊。\u003C\u002Fp>\u003Cp>如果這組數字在外部流量下還站得住腳，那就代表一件事：超大模型不一定非得綁定特規硬體。至少在某些工作負載上，commodity GPU 還有不少空間可以挖。\u003C\u002Fp>\u003Ch2>對開發者來說，這代表什麼\u003C\u002Fh2>\u003Cp>對開發者來說，重點不是 1000 tokens\u002Fs 很帥。重點是，這個速度會不會改變你怎麼做產品。當模型反應接近即時，它就能放進 live agent loop。也能放進互動式 coding 工具。甚至可以放進一些以前覺得太慢的決策流程。\u003C\u002Fp>\u003Cp>但這裡有個很現實的限制。UltraSpeed API 不是全面開放。它是申請制，而且有時間限制。MiMo 說試用期從 2026\u002F06\u002F09 到 2026\u002F06\u002F23。這代表它現在比較像企業測試窗，不像正式大眾服務。\u003C\u002Fp>\u003Cp>價格訊號也很清楚。MiMo 不是在賣便宜，而是在測市場願不願意為更快的回應付更多錢。這對很多團隊很重要。因為在大型語言模型裡，吞吐已經不是純 infra 指標，而是產品規格的一部分。\u003C\u002Fp>\u003Cul>\u003Cli>適合 live agent loop。\u003C\u002Fli>\u003Cli>適合互動式 coding 工具。\u003C\u002Fli>\u003Cli>適合風控與查詢型系統。\u003C\u002Fli>\u003Cli>不適合還在意成本的批次工作。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這次發布放在產業脈絡裡看\u003C\u002Fh2>\u003Cp>AI 產業這兩年很愛講模型大小。可是實務上，很多團隊真正痛的是延遲。你可以有很會答題的模型，但如果每次回應都慢半拍，產品體驗還是很爛。MiMo 這次就是把焦點拉回 inference。\u003C\u002Fp>\u003Cp>這也反映出一個趨勢。大家開始不只比 benchmark。大家開始比系統設計。量化、speculative decoding、kernel、通訊路徑，這些以前偏 infra 的東西，現在都會直接寫進產品敘事裡。說真的，這才比較接近真實世界。\u003C\u002Fp>\u003Cp>另一個脈絡是，特規硬體和 commodity GPU 的路線還在拉扯。\u003Ca href=\"https:\u002F\u002Fwww.cerebras.net\" target=\"_blank\" rel=\"noopener\">Cerebras\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgroq.com\" target=\"_blank\" rel=\"noopener\">Groq\u003C\u002Fa> 這類廠商主打專用架構，優勢是簡化某些推論流程。MiMo 則是在說，通用硬體加上夠狠的系統設計，也能衝出很高的 token\u002Fs。兩派都不是空話，但打法不同。\u003C\u002Fp>\u003Cp>如果你是做產品的人，這裡有個很實際的判斷方式。你的瓶頸如果是模型回覆慢，那就該先看系統。你的瓶頸如果是成本太高，那就該看量化和 decoding。你的瓶頸如果是流量穩定性，那就要看整條推論堆疊能不能扛住真實負載。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>我會先看兩件事。第一，外部開發者實測後，1000+ tokens\u002Fs 會不會掉很多。第二，這套方法離開 Xiaomi 自家堆疊後，還能不能維持同樣表現。這兩點比宣傳頁上的峰值數字更重要。\u003C\u002Fp>\u003Cp>如果 MiMo 的數字能在更雜的 prompt、長 context、真實 traffic 下站穩，那它會逼很多團隊重新想一件事：到底是需要更強的晶片，還是需要更好的 co-design。這問題很實際，也很貴。\u003C\u002Fp>\u003Cp>我的結論很簡單。這次發布最大的訊號，不是 1T 模型有多大，而是大模型推論正在\u003Ca href=\"\u002Fnews\u002Fgoogle-gemini-latest-update-maps-zh\">變成\u003C\u002Fa>系統工程。接下來如果你在做 AI 產品，最好先問自己一句：你的瓶頸是模型，還是整個執行鏈？\u003C\u002Fp>","Xiaomi MiMo 聯手 TileRT，宣稱在一般 8-GPU 伺服器上，把 1T 參數模型推到每秒 1000+ tokens。","mimo.xiaomi.com","https:\u002F\u002Fmimo.xiaomi.com\u002Fblog\u002Fmimo-tilert-1000tps",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781128990637-k4n1.png","model-release","zh","95a7789d-26a5-4861-8e97-be3b4282618b",[17,18,19,20,21,22,23,24,25,26],"MiMo","Xiaomi","TileRT","1T 模型","tokens\u002Fs","推論速度","speculative decoding","FP4 量化","commodity GPU","LLM",[28,29,30],"MiMo 宣稱在 1T 參數模型上跑到 1000+ tokens\u002Fs。","這套方法主打模型與系統 co-design，不靠特規晶片。","UltraSpeed 速度很猛，但 API 目前是限時、申請制。",0,"2026-06-10T22:02:42.710101+00:00","2026-06-10T22:02:42.702+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":36,"relatedLang":11,"relatedPosts":48},[37,39,42,44,46],{"name":18,"slug":38},"xiaomi",{"name":40,"slug":41},"MIMO","mimo",{"name":20,"slug":43},"1t-模型",{"name":19,"slug":45},"tilert",{"name":21,"slug":47},"tokenss",[49,55,61,67,73,79],{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"4fde468d-be9e-4013-a2e0-8b68ab4bf250","claude-fable-5-quiet-ai-release-week-zh","Claude Fable 5 讓這週像在降溫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781143383988-o40t.png","2026-06-11T02:02:38.955757+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"ef44efd1-dfaf-4d9e-8772-3a6d6f963f08","mistral-model-lineup-specialization-beats-giant-model-zh","Mistral 的模型陣容證明：專精勝過一個巨型模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781140675776-0e88.png","2026-06-11T01:17:28.295033+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"19af5701-87e3-4774-be7a-8aebcbeef2a5","xiaomi-mimo-1t-model-1000-tokens-per-second-zh","小米 MiMo 把 1T 模型推到 1000 tokens\u002Fs","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781129889723-wz61.png","2026-06-10T22:17:35.161841+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"9f16a688-3600-4305-aa9f-c62480e03eb1","google-gemini-latest-update-maps-zh","Gemini 把 Maps 變成對話介面","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781119077682-v9n8.png","2026-06-10T19:17:27.606098+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"be22e90e-25bf-46a2-b61a-0665559a69d8","ideogram-4-0-comfyui-first-test-zh","Ideogram 4.0 在 ComfyUI 首測的真實表現","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781118186153-rtjl.png","2026-06-10T19:02:33.328055+00:00",{"id":80,"slug":81,"title":82,"cover_image":83,"image_url":83,"created_at":84,"category":13},"af1e6b52-469d-42aa-a9fc-539f4d65e9b3","chatgpt-adult-mode-paused-may-2026-zh","ChatGPT 成人模式仍未開放","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781105573638-ehrx.png","2026-06-10T15:32:26.046475+00:00",[86,91,96,101,106,111,116,121,126,131],{"id":87,"slug":88,"title":89,"created_at":90},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":132,"slug":133,"title":134,"created_at":135},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]