MiMo-V2-Flash 直衝開源 SWE-bench

OraCore Editors

返回首頁

[MODEL] 2026年6月13日5 分鐘閱讀OraCore 編輯部

MiMo-V2-Flash 直衝開源 SWE-bench

Xiaomi 的 MiMo-V2-Flash 以 309B MoE 架構登場，OpenRouter 標價每 1M Token 只要 $0.10 / $0.30，並在開源 SWE-bench 分數上衝到前段班。

OpenRouter SWE-Bench

分享 LinkedIn

Xiaomi 的 MiMo-V2-Flash 是一款 309B 參數的開源 MoE 模型，OpenRouter 也已列出它的價格與測試表現。

這個組合很直接。模型很大，價格卻壓得很低。OpenRouter 顯示它的輸入每 1M Token 是 $0.10，輸出是 $0.30。對開發者來說，這種定價很有殺傷力。

更麻煩的是，它還把開源 SWE-bench 的成績拉到前面。對現在一堆 LLM 來說，會聊天不稀奇。能真的修 code，才是比較像樣的事。

項目	數值
總參數	309B
OpenRouter 輸入價格	$0.10 / 1M Token
OpenRouter 輸出價格	$0.30 / 1M Token
模型類型	Mixture-of-Experts

先講結論，這顆模型很會算帳

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先看最現實的部分。OpenRouter 把 Xiaomi 的 MiMo-V2-Flash 放上去時，價格直接打到很低。這不是學術海報上的漂亮數字，而是你真的會看到的 API 單價。

309B 參數聽起來很嚇人。可是 MoE 架構的重點，就是不是每次推論都把全部參數打開。講白了，這種設計就是想在成本和能力之間找平衡。對雲端服務商來說，這很重要。

如果你在做軟體產品，成本就是硬傷。尤其是 code assistant、客服自動化、文件摘要這類場景，Token 量很快就爆。每 1M Token 只要 $0.10 / $0.30，代表它很適合拿來跑大量請求。

大模型，但價格壓得低。
MoE 架構，推論成本比較好控。
適合大量 Token 的產品。
對原型驗證很友善。

SWE-bench 這件事，才是重點

很多模型都會寫詩、會聊天、會講廢話。可是真正難的是修 bug。SWE-bench 就是在測這件事。它看模型能不能處理真實 GitHub issue，然後改出可用的程式碼。

MiMo-V2-Flash 在開源 SWE-bench 上衝到前段，這代表它不是只會背答案。它得讀懂 repo 結構、找出錯誤點、再產出能過測試的 patch。這比單純問答難很多。

我覺得這種分數很有參考價值。因為開發者在乎的不是模型講得多像人，而是它能不能少浪費你 2 小時。你如果有用過 code agent，就知道一個錯誤 patch 能把整個流程搞爛。

"The best way to predict the future is to invent it." — Alan Kay

這句話放在這裡很貼。工具不是拿來看熱鬧的。它要是真的能修 code，才會進到工作流。SWE-bench 的分數，就是這條線上的一個門檻。

和其他模型比，差在哪裡

先說現況。開源 coding 模型很多。Qwen 系列、DeepSeek 系列、Llama 系列，都在搶這塊市場。大家都想證明自己不只是大，而是真的好用。

MiMo-V2-Flash 的賣點很明確。第一，它是 309B。第二，它走 MoE。第三，它在開源 SWE-bench 上有不錯表現。第四，它的價格很低。這四個條件放一起，就不是單一亮點，而是一整套商業打法。

但也別太快高潮。大模型的 benchmark 很會騙人。今天在 SWE-bench 亮眼，不代表你丟到自己公司的私有 repo，也會一樣順。資料格式、依賴版本、測試習慣，這些都會讓結果走鐘。

MiMo-V2-Flash：主打低價與 coding 表現。
DeepSeek：常被拿來比 code 能力。
Llama：生態成熟，部署選項多。
Qwen：中文與 agent 場景存在感高。

這種價格，會怎麼改變開發流程

如果價格真的長期維持在這個區間，很多團隊會開始改流程。以前可能只把大模型留給高價值任務。現在你可能會想把它塞進更多日常步驟，像是 code review、測試生成、issue 分類。

這會讓 AI API 的使用方式更像基礎設施，而不是展示品。講白了，便宜才有機會變成預設選項。貴模型很強，但如果每次都要精算 Token，團隊最後還是會縮手。

不過成本低也有代價。你要看延遲、穩定性、上下文長度，還有供應商的服務品質。便宜 API 很香，但如果常常 timeout，工程團隊還是會罵人。這點在生產環境特別明顯。

MiMo-V2-Flash 背後的訊號

這顆模型還有一個訊號很清楚。中國大型硬體與軟體公司，正在把 AI 模型做成完整產品線。不是只有手機、伺服器、雲端服務，現在連開源 LLM 也要一起上。

這對台灣開發者不是壞事。市場上多一個便宜又能打 code 的選項，代表你在選模型時有更多籌碼。你可以拿它跟商用閉源模型比，也可以拿它來做內部測試。

真正該看的，是它會不會進入更多工具鏈。像 OpenAI Codex、Claude Code 這類工作流，已經把模型當成工程工具。MiMo-V2-Flash 如果能在價格和表現上同時站穩，就會更容易被接進去。

接下來該盯什麼

我會先看三件事。第一，實際 API 延遲。第二，長上下文穩定度。第三，真實 repo 上的修復成功率。這三項比單一 benchmark 更接近現場。

如果你是工程團隊，現在就可以做一件事。拿你們最常見的 bug 類型，做一組小型測試集。把 MiMo-V2-Flash 跟你現在用的模型放一起比。別只看分數，也看人工修正時間。

說真的，這種模型最可怕的地方，不是參數多，而是價格低到讓你很難忽視。接下來幾個月，重點不是它會不會被討論，而是有多少團隊真的把它接進 production。

// 相關文章

MiMo-V2-Flash 直衝開源 SWE-bench

先講結論，這顆模型很會算帳

訂閱 AI 趨勢週報

SWE-bench 這件事，才是重點

和其他模型比，差在哪裡

這種價格，會怎麼改變開發流程

MiMo-V2-Flash 背後的訊號

接下來該盯什麼

谷歌先推 Gemini 3.6 Flash，Pro 仍缺席

Kimi K3 逼矽谷選邊站

Opus 5 讓你少碰拒答

Claude Opus 5 以更低價格搶企業單

OpenAI 列出 GPT-5.6 三檔定價

Gemini 3.6 Flash 證明 Google 把效率放在 hype 前面