[MODEL] 5 分鐘閱讀OraCore 編輯部

MiMo-V2-Flash 直衝開源 SWE-bench

Xiaomi 的 MiMo-V2-Flash 以 309B MoE 架構登場,OpenRouter 標價每 1M Token 只要 $0.10 / $0.30,並在開源 SWE-bench 分數上衝到前段班。

分享 LinkedIn
MiMo-V2-Flash 直衝開源 SWE-bench

Xiaomi 的 MiMo-V2-Flash 是一款 309B 參數的開源 MoE 模型,OpenRouter 也已列出它的價格與測試表現。

這個組合很直接。模型很大,價格卻壓得很低。OpenRouter 顯示它的輸入每 1M Token 是 $0.10,輸出是 $0.30。對開發者來說,這種定價很有殺傷力。

更麻煩的是,它還把開源 SWE-bench 的成績拉到前面。對現在一堆 LLM 來說,會聊天不稀奇。能真的修 code,才是比較像樣的事。

項目數值
總參數309B
OpenRouter 輸入價格$0.10 / 1M Token
OpenRouter 輸出價格$0.30 / 1M Token
模型類型Mixture-of-Experts

先講結論,這顆模型很會算帳

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

先看最現實的部分。OpenRouterXiaomiMiMo-V2-Flash 放上去時,價格直接打到很低。這不是學術海報上的漂亮數字,而是你真的會看到的 API 單價。

MiMo-V2-Flash 直衝開源 SWE-bench

309B 參數聽起來很嚇人。可是 MoE 架構的重點,就是不是每次推論都把全部參數打開。講白了,這種設計就是想在成本和能力之間找平衡。對雲端服務商來說,這很重要。

如果你在做軟體產品,成本就是硬傷。尤其是 code assistant、客服自動化、文件摘要這類場景,Token 量很快就爆。每 1M Token 只要 $0.10 / $0.30,代表它很適合拿來跑大量請求。

  • 大模型,但價格壓得低。
  • MoE 架構,推論成本比較好控。
  • 適合大量 Token 的產品。
  • 對原型驗證很友善。

SWE-bench 這件事,才是重點

很多模型都會寫詩、會聊天、會講廢話。可是真正難的是修 bug。SWE-bench 就是在測這件事。它看模型能不能處理真實 GitHub issue,然後改出可用的程式碼。

MiMo-V2-Flash 在開源 SWE-bench 上衝到前段,這代表它不是只會背答案。它得讀懂 repo 結構、找出錯誤點、再產出能過測試的 patch。這比單純問答難很多。

我覺得這種分數很有參考價值。因為開發者在乎的不是模型講得多像人,而是它能不能少浪費你 2 小時。你如果有用過 code agent,就知道一個錯誤 patch 能把整個流程搞爛。

"The best way to predict the future is to invent it." — Alan Kay

這句話放在這裡很貼。工具不是拿來看熱鬧的。它要是真的能修 code,才會進到工作流。SWE-bench 的分數,就是這條線上的一個門檻。

和其他模型比,差在哪裡

先說現況。開源 coding 模型很多。Qwen 系列、DeepSeek 系列、Llama 系列,都在搶這塊市場。大家都想證明自己不只是大,而是真的好用。

MiMo-V2-Flash 直衝開源 SWE-bench

MiMo-V2-Flash 的賣點很明確。第一,它是 309B。第二,它走 MoE。第三,它在開源 SWE-bench 上有不錯表現。第四,它的價格很低。這四個條件放一起,就不是單一亮點,而是一整套商業打法。

但也別太快高潮。大模型的 benchmark 很會騙人。今天在 SWE-bench 亮眼,不代表你丟到自己公司的私有 repo,也會一樣順。資料格式、依賴版本、測試習慣,這些都會讓結果走鐘。

  • MiMo-V2-Flash:主打低價與 coding 表現。
  • DeepSeek:常被拿來比 code 能力。
  • Llama:生態成熟,部署選項多。
  • Qwen:中文與 agent 場景存在感高。

這種價格,會怎麼改變開發流程

如果價格真的長期維持在這個區間,很多團隊會開始改流程。以前可能只把大模型留給高價值任務。現在你可能會想把它塞進更多日常步驟,像是 code review、測試生成、issue 分類。

這會讓 AI API 的使用方式更像基礎設施,而不是展示品。講白了,便宜才有機會變成預設選項。貴模型很強,但如果每次都要精算 Token,團隊最後還是會縮手。

不過成本低也有代價。你要看延遲、穩定性、上下文長度,還有供應商的服務品質。便宜 API 很香,但如果常常 timeout,工程團隊還是會罵人。這點在生產環境特別明顯。

MiMo-V2-Flash 背後的訊號

這顆模型還有一個訊號很清楚。中國大型硬體與軟體公司,正在把 AI 模型做成完整產品線。不是只有手機、伺服器、雲端服務,現在連開源 LLM 也要一起上。

這對台灣開發者不是壞事。市場上多一個便宜又能打 code 的選項,代表你在選模型時有更多籌碼。你可以拿它跟商用閉源模型比,也可以拿它來做內部測試。

真正該看的,是它會不會進入更多工具鏈。像 OpenAI CodexClaude Code 這類工作流,已經把模型當成工程工具。MiMo-V2-Flash 如果能在價格和表現上同時站穩,就會更容易被接進去。

接下來該盯什麼

我會先看三件事。第一,實際 API 延遲。第二,長上下文穩定度。第三,真實 repo 上的修復成功率。這三項比單一 benchmark 更接近現場。

如果你是工程團隊,現在就可以做一件事。拿你們最常見的 bug 類型,做一組小型測試集。把 MiMo-V2-Flash 跟你現在用的模型放一起比。別只看分數,也看人工修正時間。

說真的,這種模型最可怕的地方,不是參數多,而是價格低到讓你很難忽視。接下來幾個月,重點不是它會不會被討論,而是有多少團隊真的把它接進 production。