[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-xiaomi-mimo-trio-agents-robots-voice-zh":3,"article-related-xiaomi-mimo-trio-agents-robots-voice-zh":29,"series-model-release-cda76b92-d209-4134-86c1-a60f5bc7b128":88},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":11,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":27,"created_at":28,"published_at":28,"topic_cluster_id":11},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","\u003Cp>小米一次丟出 3 款 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\" target=\"_blank\" rel=\"noopener\">MiMo\u003C\u002Fa> 模型。這不是單純做聊天機器人。它想做的是能看、能聽、能說、也能動的 AI 堆疊。\u003C\u002Fp>\u003Cp>先看數字。\u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-Pro\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Pro\u003C\u002Fa> 總參數超過 1 兆。每次推理啟動 420 億參數。上下文長度最高可到 100 萬 token。這種規格，說真的，不是來陪你閒聊的。\u003C\u002Fp>\u003Cp>更狠的是價格。小米把這組模型打得很低。它的策略很明顯：先把門檻壓下來，再把 AI 塞進手機、汽車、家電和語音產品裡。\u003C\u002Fp>\u003Ch2>小米不是在做聊天框\u003C\u002Fh2>\u003Cp>這次的 3 款模型，各自負責不同層。MiMo-V2-Pro 管推理、寫程式、代理任務。MiMo-V2-Omni 負責圖像、影片、音訊理解，還能呼叫工具。MiMo-V2-TTS 則負責語音合成，還能控制情緒，甚至支援唱歌。\u003C\u002Fp>\u003Cp>講白了，小米在做的是一整套 agent 架構。不是一個會回話的模型。是能接瀏覽器、接麥克風、接相機、接車機螢幕的模型群。\u003C\u002Fp>\u003Cp>這很符合小米的硬體版圖。手機、智慧家居、汽車、穿戴裝置，全都需要不同感官輸入。若模型能看行車畫面、回覆語音指令、再幫你填網頁表單，那它就不只是 API，而是產品核心。\u003C\u002Fp>\u003Cul>\u003Cli>MiMo-V2-Pro：總參數超過 1 兆\u003C\u002Fli>\u003Cli>MiMo-V2-Pro：每次啟動 420 億參數\u003C\u002Fli>\u003Cli>MiMo-V2-Pro：上下文最高 100 萬 token\u003C\u002Fli>\u003Cli>MiMo-V2-TTS：支援情緒語音與唱歌\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這種切法很務實。現在很多團隊都想做一個萬能模型。結果常常是什麼都能碰，什麼都不夠穩。小米反過來，直接拆成專用模型，再把它們串起來。\u003C\u002Fp>\u003Cp>這種做法比較像產品公司。不是研究室。它關心的是能不能上車、能不能進手機、能不能變成用戶真的會碰的功能。\u003C\u002Fp>\u003Ch2>MiMo-V2-Pro 是最值得盯的那顆\u003C\u002Fh2>\u003Cp>如果你是開發者，第一眼通常會看 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-Pro\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Pro\u003C\u002Fa>。因為它最像主力模型。小米說它在 PinchBench 和 ClawEval 都排進全球前段班，SWE-bench Verified 拿到 78 分。\u003C\u002Fp>\u003Cp>這個分數很接近 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude\u003C\u002Fa> 系列。Claude Opus 4.6 是 80.8。Claude Sonnet 4.6 是 79.6。MiMo-V2-Pro 雖然沒有贏，但差距很小。以價格來看，這就很有意思了。\u003C\u002Fp>\u003Cp>小米還提到，這個模型曾用代號 Hunter Alpha 在 \u003Ca href=\"https:\u002F\u002Fopenrouter.ai\" target=\"_blank\" rel=\"noopener\">OpenRouter\u003C\u002Fa> 上跑過。期間處理超過 1 兆 token。程式碼相關任務是最常見用途。這代表什麼？代表開發者真的會拿它來硬測，不是只跑幾個漂亮 demo。\u003C\u002Fp>\u003Cblockquote>“We believe the path to general intelligence runs through the real world.”\u003C\u002Fblockquote>\u003Cp>這句話來自小米 MiMo 團隊。意思很直接。它們想做的是能在真實世界工作的模型。不是只會背答案的模型。\u003C\u002Fp>\u003Cp>再看定價，小米很敢。MiMo-V2-Pro 的價格是每 100 萬 input token 1 美元，每 100 萬 output token 3 美元。對比 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fapi\" target=\"_blank\" rel=\"noopener\">Anthropic API\u003C\u002Fa> 的高階方案，這差距很明顯。對想大量試錯的團隊來說，成本差很多。\u003C\u002Fp>\u003Cul>\u003Cli>MiMo-V2-Pro：SWE-bench Verified 78\u003C\u002Fli>\u003Cli>Claude Sonnet 4.6：SWE-bench Verified 79.6\u003C\u002Fli>\u003Cli>Claude Opus 4.6：SWE-bench Verified 80.8\u003C\u002Fli>\u003Cli>MiMo-V2-Pro：每 100 萬 input token 1 美元\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡的重點不是小米有沒有全面超車。重點是，它已經把價格、上下文、推理能力湊成一個能打的組合。對很多公司來說，這比單點最高分更實際。\u003C\u002Fp>\u003Cp>因為真正在意成本的人，通常不是拿模型做作文測驗。是拿它跑客服、跑程式助理、跑內部工具。那時候，每 1 美元和 5 美元的差距就很有感。\u003C\u002Fp>\u003Ch2>MiMo-V2-Omni 才是產品味最重的那顆\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-Omni\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Omni\u003C\u002Fa> 是我覺得最像實戰模型的版本。它能看圖、看影片、聽音訊，還能做工具呼叫。這很像把感知和動作放進同一個系統。\u003C\u002Fp>\u003Cp>小米的 demo 也很有畫面。它可以看行車紀錄器，抓出行人、來車、路口壅塞。也可以打開瀏覽器，查小紅書評論，去京東比價，再跟客服談折扣。這種流程，已經很接近真實代理任務了。\u003C\u002Fp>\u003Cp>但別太快高潮。看 benchmark 就知道，Omni 還不是全能。小米說它在音訊和圖像任務上很強。可是在 ClawEval 這種 agent benchmark，它只有 54.8 分。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude Opus 4.6\u003C\u002Fa> 是 66.3，\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5.2\u003C\u002Fa> 是 59.6。\u003C\u002Fp>\u003Cp>換成白話就是：看得很不錯，做事還要磨。這其實很正常。因為多模態理解和穩定執行，本來就是兩回事。\u003C\u002Fp>\u003Cul>\u003Cli>MM-BrowserComp：小米稱表現優於 Gemini 3 Pro 與 GPT-5.2\u003C\u002Fli>\u003Cli>ClawEval：MiMo-V2-Omni 54.8\u003C\u002Fli>\u003Cli>Claude Opus 4.6：ClawEval 66.3\u003C\u002Fli>\u003Cli>GPT-5.2：ClawEval 59.6\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡我會給小米一個比較務實的評價。它不是在跟別人拼單一能力。它是在把視覺、語音、操作流程，硬整成一個能落地的產品。\u003C\u002Fp>\u003Cp>如果你做的是車機、智慧音箱、購物助理，這顆模型的價值就會很直接。因為這些場景本來就不是純文字世界。\u003C\u002Fp>\u003Ch2>MiMo-V2-TTS 可能更貼近一般人\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-TTS\" target=\"_blank\" rel=\"noopener\">MiMo-V2-TTS\u003C\u002Fa> 看起來沒有前兩顆那麼炸。可它可能更接近消費級產品。小米說它用超過 1 億小時的語音資料訓練，還能做細緻的情緒控制。\u003C\u002Fp>\u003Cp>這代表什麼？你不用只選「男聲」「女聲」「正式」「活潑」。你可以直接下提示詞。像是「剛睡醒、有點沙啞」或「很生氣，但在忍」。這比傳統 TTS 的選單式調音自然很多。\u003C\u002Fp>\u003Cp>它還能輸出咳嗽、停頓、嘆氣、笑聲。更誇張的是，小米說它是目前少數同時支援語音和唱歌的商用 TTS API。這點很有意思，因為語音產品最怕聽起來像機器人。\u003C\u002Fp>\u003Cp>如果這顆模型真的穩，對手機和智慧音箱會很有用。語音助理不只是回你一句話。它要有節奏感，也要有情緒。這才像人。\u003C\u002Fp>\u003Cp>另外，它還會把字型當成語氣線索。大寫、重複字元，都會影響輸出。這種細節很小，但很有感。因為使用者真的會在意「聽起來像不像」。\u003C\u002Fp>\u003Cp>在語音市場裡，這種細節常常比模型分數更重要。你可以接受它少 2 分。你很難接受它每次講話都像客服錄音。\u003C\u002Fp>\u003Ch2>中國 AI 競爭已經很擠了\u003C\u002Fh2>\u003Cp>現在中國的模型戰場很熱。\u003Ca href=\"https:\u002F\u002Fwww.zhipuai.cn\" target=\"_blank\" rel=\"noopener\">Zhipu AI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fmoonshot.cn\" target=\"_blank\" rel=\"noopener\">Moonshot AI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\" target=\"_blank\" rel=\"noopener\">Qwen\u003C\u002Fa> 都在拼 coding 和 agent 能力。每家都想證明自己能做企業級應用。\u003C\u002Fp>\u003Cp>小米的打法不太一樣。它不是只做模型。它還有手機、汽車、家電、攝影機、音箱。這代表模型一旦成熟，產品化路徑很短。別人可能要找合作夥伴。小米自己就有硬體入口。\u003C\u002Fp>\u003Cp>但問題也很明顯。agent 最難的不是跑分。是穩定。瀏覽器會改版。表單會壞。語音流程會卡。模型只要出一次錯，使用者就會直接關掉。\u003C\u002Fp>\u003Cul>\u003Cli>Zhipu AI：主打通用大模型與企業場景\u003C\u002Fli>\u003Cli>Moonshot AI：強項在長上下文與助理體驗\u003C\u002Fli>\u003Cli>Qwen：在開源與工具鏈上很強\u003C\u002Fli>\u003Cli>小米：直接把模型接到硬體與終端\u003C\u002Fli>\u003C\u002Ful>\u003Cp>所以我看這次發表，重點不是「誰分數高一點」。而是小米已經把 AI 當成一整條產品線在做。這比只發一個聊天模型，野心大很多，也麻煩很多。\u003C\u002Fp>\u003Cp>接下來真正的考題只有一個：這些模型能不能在手機、車子、家裡，穩穩做事。能的話，就不是 demo 而已。不能的話，再漂亮的 benchmark 也只是一張海報。\u003C\u002Fp>\u003Ch2>結尾：小米下一步要證明什麼\u003C\u002Fh2>\u003Cp>我覺得小米接下來最該做的，不是再喊更大的參數。它該拿出更多真實場景。像是車內語音、購物助手、家庭控制、影像理解，然後公開失敗率和延遲數字。\u003C\u002Fp>\u003Cp>如果 MiMo 真要進產品，台灣開發者最該盯的也不是分數本身，而是 API 成本、上下文限制、工具呼叫穩定性，還有中文語音的自然度。這些才是最後會影響採用率的東西。\u003C\u002Fp>\u003Cp>說白了，小米已經把牌面攤開了。接下來就看它能不能把這套模型，真的塞進你我手上的裝置裡，而且不出包。\u003C\u002Fp>","小米一次推出三款 MiMo AI 模型，涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文，逼近 Claude Opus 4.6 的表現。","the-decoder.com","https:\u002F\u002Fthe-decoder.com\u002Fxiaomi-launches-three-mimo-ai-models-to-power-agents-robots-and-voice\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774498800835-3s4y.png","model-release","zh","60881d6d-2310-44ef-b1fb-7f98e9dd2f0e",[17,18,19,20,21,22,23,24,25,26],"小米","MiMo","AI模型","代理式AI","多模態模型","語音合成","Claude","GPT","OpenRouter","SWE-bench",12,"2026-03-28T03:05:08.779489+00:00",{"tags":30,"relatedLang":47,"relatedPosts":51},[31,33,35,38,39,42,45],{"name":25,"slug":32},"openrouter",{"name":24,"slug":34},"gpt",{"name":36,"slug":37},"研究整理","-",{"name":21,"slug":21},{"name":40,"slug":41},"SWE-Bench","swe-bench",{"name":43,"slug":44},"MIMO","mimo",{"name":19,"slug":46},"ai模型",{"id":15,"slug":48,"title":49,"language":50},"xiaomi-mimo-trio-agents-robots-voice-en","Xiaomi’s MiMo trio targets agents, robots, and voice","en",[52,58,64,70,76,82],{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"cfb68e08-fe4e-49f6-b449-e566faf56311","kimi-2-7-price-coding-benchmark-zh","Kimi 2.7 讓價格成為真正的寫碼基準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782746270225-tcs9.png","2026-06-29T15:17:24.321277+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"ca1e6960-10e7-4fa7-949f-c5991c99fc7e","kimi-k26-open-source-coding-agentic-ai-benchmarks-zh","Kimi K2.6 登頂程式與代理式 AI 基準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782739078329-qvne.png","2026-06-29T13:17:26.530857+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"edf8e66b-c717-4cc1-b15a-96839bb7bbcf","llama-legends-380-season-3-heroes-raids-zh","Llama Legends 3.8.0 推出 Season 3 英雄與突襲","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782711179415-qurv.png","2026-06-29T05:32:32.733919+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"88d353ca-468b-4774-922d-ef0cbc2edd68","omlx-045-dev1-glm52-minimax-m3-speedups-zh","oMLX 0.4.5.dev1 讓長上下文更快","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782709372375-25nm.png","2026-06-29T05:02:28.341041+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"e6ae84b6-4e55-4ab2-a1cf-4a08e23cbc77","grok-45-private-beta-tesla-spacex-zh","Grok 4.5 先進 Tesla 和 SpaceX 內測","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782687769532-te5b.png","2026-06-28T23:02:22.915901+00:00",{"id":83,"slug":84,"title":85,"cover_image":86,"image_url":86,"created_at":87,"category":13},"186b266a-5b45-4bd4-85a4-5fa62fcc50dc","google-openrl-llm-fine-tuning-kubernetes-zh","Google OpenRL 把 RL 細調搬上 Kubernetes","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782572576166-gzxw.png","2026-06-27T15:02:27.036919+00:00",[89,94,99,104,109,110,115,120,125,130],{"id":90,"slug":91,"title":92,"created_at":93},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":4,"slug":5,"title":6,"created_at":28},{"id":111,"slug":112,"title":113,"created_at":114},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]