[IND] 4 分鐘閱讀OraCore 編輯部

Xiaomi MiMo-V2-Omni 把感知接到動作

5 個重點看懂 Xiaomi MiMo-V2-Omni:一個把視覺、音訊、影片與瀏覽器動作串起來的多模態代理模型。

分享 LinkedIn
Xiaomi MiMo-V2-Omni 把感知接到動作

這篇整理 Xiaomi MiMo-V2-Omni 的 5 個重點,幫你判斷它是否適合做多模態代理、瀏覽器操作與辦公自動化。

Xiaomi 的 MiMo-V2-Omni 不是只會回答問題的模型,而是把看、聽、判斷和執行接在一起。若你想知道它能不能接進代理工作流、處理長音訊、讀圖表,甚至直接產出文件,下面 5 點就夠你做初步選擇。它也已提供 API,輸入每百萬 token 0.4 美元、輸出每百萬 token 2 美元。

項目規格 A規格 B
API 價格$0.4 / 百萬輸入 token$2 / 百萬輸出 token
音訊能力連續音訊理解超過 10 小時
視覺表現圖表分析接近 Gemini 3,優於 Claude 4.6 Opus
影片能力原生音訊-影片聯合輸入支援情境感知與預測

1. 一個模型同時管文字、視覺和語音

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

MiMo-V2-Omni 的核心賣點,是把文字、圖像、音訊和影片放進同一套基礎模型。Xiaomi 的說法很直接:感知和動作不該拆成好幾個系統,否則代理流程會多出很多接線與轉換成本。

Xiaomi MiMo-V2-Omni 把感知接到動作

對實際應用來說,這代表模型更適合做「先看懂,再決定,再執行」的任務,而不是只做單輪問答。

  • 同一模型處理多模態輸入
  • 適合代理框架與工作流整合
  • 降低多系統串接成本

2. 圖表與複雜畫面的理解更像辦公助手

Xiaomi 強調它的視覺推理能力,尤其是圖表分析與跨領域視覺任務。官方描述裡,它在這類任務上優於 Claude 4.6 Opus,並逼近 Gemini 3 這類頂級閉源模型。

這種能力不只是展示效果好看,而是能直接影響研究、報告、簡報和瀏覽器任務的可用性。能讀懂密集圖表的模型,才有機會真的接手辦公場景。

  • 圖表解讀
  • 複雜場景推理
  • 適合研究與文件工作

3. 音訊理解不是只做短句轉寫

MiMo-V2-Omni 的音訊能力不只是在辨識語音。Xiaomi 提到它可做環境聲分類、多人聲分離、音訊與影像聯合推理,還能理解超過 10 小時的連續音訊。

Xiaomi MiMo-V2-Omni 把感知接到動作

這讓它比較像能處理真實世界噪音的助理,而不是只在乾淨錄音裡表現好。對需要長時間監聽、會議摘要或事件回放的場景,這點很關鍵。

  • 環境聲分類
  • 多人聲分離
  • 音訊與影像聯合推理
  • 長音檔理解

4. 影片理解把聲音、畫面和時間線綁在一起

這個模型支援原生音訊與影片聯合輸入,重點不是單看逐格畫面,而是把聲音、動作與上下文一起理解。Xiaomi 也提到影片預訓練帶來更好的情境感知與預測能力。

換句話說,它比較像在追蹤事件如何發生,而不是只回答「畫面裡有什麼」。這對內容審核、事件回溯、現場分析都更實用。

可想像的用法:
- 追蹤直播事件的聲畫變化
- 找出場景中哪裡改變了
- 預測下一個動作或事件

5. 真正拉開差距的是瀏覽器和辦公動作

MiMo-V2-Omni 最有意思的地方,在於它不只會理解,還能動手。Xiaomi 說它可以呼叫工具、執行函式、操作 GUI,並接入主流代理框架;示例裡也包含購物、與客服議價、發布 TikTok 影片等瀏覽器任務。

辦公流程也被放進同一條路徑。它能透過自然對話產出 Word、Excel、PDF 和 PPT,還能結合網頁搜尋與檔案技能,做出像升學建議這類結構化輸出。

  • 多分頁瀏覽器操作
  • 可處理反自動化檢查後的流程恢復
  • 可輸出 Word、Excel、PDF、PPT
  • API 入口:platform.xiaomimimo.com

哪種適合你

如果你只需要純文字聊天或簡單自動化,MiMo-V2-Omni 可能太重。若你的工作常碰到圖片、音訊、影片、瀏覽器和辦公文件,而且希望一個模型串起整條流程,它就很對題。

最適合的是想把「看懂內容」和「實際完成任務」接在一起的團隊。若你的重點只是便宜、快速的文字生成,較小的模型仍可能更划算。