Xiaomi MiMo-V2-Omni 把感知接到動作
5 個重點看懂 Xiaomi MiMo-V2-Omni:一個把視覺、音訊、影片與瀏覽器動作串起來的多模態代理模型。

這篇整理 Xiaomi MiMo-V2-Omni 的 5 個重點,幫你判斷它是否適合做多模態代理、瀏覽器操作與辦公自動化。
Xiaomi 的 MiMo-V2-Omni 不是只會回答問題的模型,而是把看、聽、判斷和執行接在一起。若你想知道它能不能接進代理工作流、處理長音訊、讀圖表,甚至直接產出文件,下面 5 點就夠你做初步選擇。它也已提供 API,輸入每百萬 token 0.4 美元、輸出每百萬 token 2 美元。
| 項目 | 規格 A | 規格 B |
|---|---|---|
| API 價格 | $0.4 / 百萬輸入 token | $2 / 百萬輸出 token |
| 音訊能力 | 連續音訊理解 | 超過 10 小時 |
| 視覺表現 | 圖表分析 | 接近 Gemini 3,優於 Claude 4.6 Opus |
| 影片能力 | 原生音訊-影片聯合輸入 | 支援情境感知與預測 |
1. 一個模型同時管文字、視覺和語音
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
MiMo-V2-Omni 的核心賣點,是把文字、圖像、音訊和影片放進同一套基礎模型。Xiaomi 的說法很直接:感知和動作不該拆成好幾個系統,否則代理流程會多出很多接線與轉換成本。

對實際應用來說,這代表模型更適合做「先看懂,再決定,再執行」的任務,而不是只做單輪問答。
- 同一模型處理多模態輸入
- 適合代理框架與工作流整合
- 降低多系統串接成本
2. 圖表與複雜畫面的理解更像辦公助手
Xiaomi 強調它的視覺推理能力,尤其是圖表分析與跨領域視覺任務。官方描述裡,它在這類任務上優於 Claude 4.6 Opus,並逼近 Gemini 3 這類頂級閉源模型。
這種能力不只是展示效果好看,而是能直接影響研究、報告、簡報和瀏覽器任務的可用性。能讀懂密集圖表的模型,才有機會真的接手辦公場景。
- 圖表解讀
- 複雜場景推理
- 適合研究與文件工作
3. 音訊理解不是只做短句轉寫
MiMo-V2-Omni 的音訊能力不只是在辨識語音。Xiaomi 提到它可做環境聲分類、多人聲分離、音訊與影像聯合推理,還能理解超過 10 小時的連續音訊。

這讓它比較像能處理真實世界噪音的助理,而不是只在乾淨錄音裡表現好。對需要長時間監聽、會議摘要或事件回放的場景,這點很關鍵。
- 環境聲分類
- 多人聲分離
- 音訊與影像聯合推理
- 長音檔理解
4. 影片理解把聲音、畫面和時間線綁在一起
這個模型支援原生音訊與影片聯合輸入,重點不是單看逐格畫面,而是把聲音、動作與上下文一起理解。Xiaomi 也提到影片預訓練帶來更好的情境感知與預測能力。
換句話說,它比較像在追蹤事件如何發生,而不是只回答「畫面裡有什麼」。這對內容審核、事件回溯、現場分析都更實用。
可想像的用法:
- 追蹤直播事件的聲畫變化
- 找出場景中哪裡改變了
- 預測下一個動作或事件5. 真正拉開差距的是瀏覽器和辦公動作
MiMo-V2-Omni 最有意思的地方,在於它不只會理解,還能動手。Xiaomi 說它可以呼叫工具、執行函式、操作 GUI,並接入主流代理框架;示例裡也包含購物、與客服議價、發布 TikTok 影片等瀏覽器任務。
辦公流程也被放進同一條路徑。它能透過自然對話產出 Word、Excel、PDF 和 PPT,還能結合網頁搜尋與檔案技能,做出像升學建議這類結構化輸出。
- 多分頁瀏覽器操作
- 可處理反自動化檢查後的流程恢復
- 可輸出 Word、Excel、PDF、PPT
- API 入口:platform.xiaomimimo.com
哪種適合你
如果你只需要純文字聊天或簡單自動化,MiMo-V2-Omni 可能太重。若你的工作常碰到圖片、音訊、影片、瀏覽器和辦公文件,而且希望一個模型串起整條流程,它就很對題。
最適合的是想把「看懂內容」和「實際完成任務」接在一起的團隊。若你的重點只是便宜、快速的文字生成,較小的模型仍可能更划算。