Xiaomi MiMo-V2-Omni 把感知接到動作

[IND] 2026年6月26日4 分鐘閱讀OraCore 編輯部

5 個重點看懂 Xiaomi MiMo-V2-Omni：一個把視覺、音訊、影片與瀏覽器動作串起來的多模態代理模型。

這篇整理 Xiaomi MiMo-V2-Omni 的 5 個重點，幫你判斷它是否適合做多模態代理、瀏覽器操作與辦公自動化。

Xiaomi 的 MiMo-V2-Omni 不是只會回答問題的模型，而是把看、聽、判斷和執行接在一起。若你想知道它能不能接進代理工作流、處理長音訊、讀圖表，甚至直接產出文件，下面 5 點就夠你做初步選擇。它也已提供 API，輸入每百萬 token 0.4 美元、輸出每百萬 token 2 美元。

1. 一個模型同時管文字、視覺和語音

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

MiMo-V2-Omni 的核心賣點，是把文字、圖像、音訊和影片放進同一套基礎模型。Xiaomi 的說法很直接：感知和動作不該拆成好幾個系統，否則代理流程會多出很多接線與轉換成本。

對實際應用來說，這代表模型更適合做「先看懂，再決定，再執行」的任務，而不是只做單輪問答。

Xiaomi 強調它的視覺推理能力，尤其是圖表分析與跨領域視覺任務。官方描述裡，它在這類任務上優於 Claude 4.6 Opus，並逼近 Gemini 3 這類頂級閉源模型。

這種能力不只是展示效果好看，而是能直接影響研究、報告、簡報和瀏覽器任務的可用性。能讀懂密集圖表的模型，才有機會真的接手辦公場景。

MiMo-V2-Omni 的音訊能力不只是在辨識語音。Xiaomi 提到它可做環境聲分類、多人聲分離、音訊與影像聯合推理，還能理解超過 10 小時的連續音訊。

這讓它比較像能處理真實世界噪音的助理，而不是只在乾淨錄音裡表現好。對需要長時間監聽、會議摘要或事件回放的場景，這點很關鍵。

這個模型支援原生音訊與影片聯合輸入，重點不是單看逐格畫面，而是把聲音、動作與上下文一起理解。Xiaomi 也提到影片預訓練帶來更好的情境感知與預測能力。

換句話說，它比較像在追蹤事件如何發生，而不是只回答「畫面裡有什麼」。這對內容審核、事件回溯、現場分析都更實用。

可想像的用法：
- 追蹤直播事件的聲畫變化
- 找出場景中哪裡改變了
- 預測下一個動作或事件

MiMo-V2-Omni 最有意思的地方，在於它不只會理解，還能動手。Xiaomi 說它可以呼叫工具、執行函式、操作 GUI，並接入主流代理框架；示例裡也包含購物、與客服議價、發布 TikTok 影片等瀏覽器任務。

辦公流程也被放進同一條路徑。它能透過自然對話產出 Word、Excel、PDF 和 PPT，還能結合網頁搜尋與檔案技能，做出像升學建議這類結構化輸出。

如果你只需要純文字聊天或簡單自動化，MiMo-V2-Omni 可能太重。若你的工作常碰到圖片、音訊、影片、瀏覽器和辦公文件，而且希望一個模型串起整條流程，它就很對題。

最適合的是想把「看懂內容」和「實際完成任務」接在一起的團隊。若你的重點只是便宜、快速的文字生成，較小的模型仍可能更划算。

// 相關文章