MiniMax M3 證明開放權重前沿模型已經重要

OraCore Editors

返回首頁

[MODEL] 2026年6月25日4 分鐘閱讀OraCore 編輯部

MiniMax M3 證明開放權重前沿模型已經重要

MiniMax M3 顯示開放權重模型已能在程式碼、代理、長上下文與多模態上，和前沿閉源模型正面競爭。

長上下文

分享 LinkedIn

MiniMax M3 證明開放權重模型已能在程式碼、代理、長上下文與多模態上和前沿閉源模型正面競爭。

我認為，MiniMax M3 不是又一次模型發表，而是開放權重陣營正式進入前沿競賽的訊號。它同時把三件事放上桌：強調軟體工程與工具使用能力、1M token 上下文窗口與至少 512K 的保證、以及原生多模態。這三項過去常被視為閉源系統的護城河，如今被同一個開放權重模型一口氣拉到檯面上，市場對能力邊界的想像已經被改寫。

第一個論點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

M3 最有力的地方，不是單一分數，而是它能完成什麼樣的工作。MiniMax 宣稱，M3 用了將近 12 小時重現一篇 ICLR 2025 論文，過程中產出 18 次 commit 與 23 張實驗圖，而且把論文、程式碼與 log 都放在同一個上下文裡處理。這類任務真正考驗的是狀態維持能力，而不是短答題技巧。對工程團隊來說，能在長流程研究與開發中不斷線的模型，才有實際生產價值。

CUDA kernel 的案例把這件事說得更清楚。MiniMax 表示，M3 面對一個無法直接執行的 Triton 骨架，花了約 24 小時完成 147 次 benchmark 提交與 1,959 次工具呼叫，將硬體峰值利用率從 7.6% 提升到 71.3%，等於 9.4 倍加速。這已經不是「生成程式碼」而已，而是帶著回饋迴路、性能量測與反覆修正的優化工作。對開發者而言，這代表模型不只是會寫字，而是能真的把昂貴系統做快。

第二個論點

1M token 上下文窗口，是 M3 最重要的產品訊號，因為它直接改變代理能記住什麼。MiniMax 說 API 支援最高 1M token，且保證最低 512K，並把它定位成長程式碼、長程代理任務與長影片理解的基礎設施。這不是單純的規格炫耀，而是工作方式的改變。真正能在生產環境勝出的模型，通常不是最會背答案的，而是能把整個任務維持在工作記憶裡、少靠脆弱檢索拼接的那一種。

它也釋放出明確的競爭訊號。MiniMax 把 M3 定位成首個同時具備前沿程式碼能力、百萬級上下文與多模態的開放權重模型。即使每個數字都還要等第三方驗證，方向本身已經很清楚：市場正在往能讀 repo、看 log、看圖表、看影片，還能跨整個任務推理的系統移動。當這件事變成常態，團隊就不會再問上下文長度重不重要，而是問模型能不能撐完整週期的真實工作。

反方可能怎麼說

最強的反對意見很直接：廠商 benchmark 和精心設計的 demo，不等於持久優勢。開放權重模型常在發布當天很亮眼，之後卻在獨立測試裡被邊角案例、成本、延遲與穩定性拉回現實。一個 kernel 的 9.4 倍優化故事，或是一篇論文的受控重現，都不足以證明 M3 能在生產中持續勝過最強閉源模型。

這個質疑是合理的，不能用話術帶過。尤其當亮點建立在少數展示任務上時，benchmark 敘事的侷限本來就存在。但這個反方論點還不足以推翻 M3 的戰略意義，因為它不是只賣一個能力，而是把長上下文、工具使用、多模態與開放權重部署綁成同一個平台。就算個別數字在第三方驗證後收斂，核心判斷仍成立：開放模型已經在代理真正有價值的維度上，和前沿閉源模型正面競爭。

你能做什麼

如果你是工程師或 PM，現在就該把評測從「單輪提示詞」改成「完整工作流」。拿真實資產去測：一個 repo、一篇論文、log、圖表、工具鏈，看看模型能不能在多步任務裡維持狀態並完成交付。如果你是創辦人，應該預設客戶很快會把開放部署、長上下文與多模態推理當成同一個基本要求，然後重新選擇供應商與架構。問題已經不是模型會不會回答，而是它能不能把工作一路扛到完成。

// 相關文章

MiniMax M3 證明開放權重前沿模型已經重要

第一個論點

訂閱 AI 趨勢週報

第二個論點

反方可能怎麼說

你能做什麼

OpenAI Sora 企業硬體瞄準影片工作流

GPT-5.6 這週可能登場

GPT-5.6 傳聞：2M 上下文與寫碼升級

Kimi 的長上下文一路加大

Midjourney Medical 的 60 秒掃描，還沒到臨床

GLM-5.2 開源：1M 上下文上線