MiniMax M3 自架 GPU 雲部署分析

OraCore Editors

返回首頁

[MODEL] 2026年6月18日7 分鐘閱讀OraCore 編輯部

MiniMax M3 自架 GPU 雲部署分析

MiniMax M3 有 229.9B MoE 權重、1M context 和多模態輸出，但要自架就得準備很大的 GPU 記憶體與成本。

vLLM MoE

分享 LinkedIn

MiniMax M3 是一款 229.9B MoE 開源權重模型，能跑 1M token 的多模態工作負載，但自架成本很高。

說真的，這模型很猛。MiniMax M3 在 2026 年 6 月 1 日發表後不久，Spheron 就釋出部署指南。這速度很誇張，也代表大家真的在盯它。

原因很直接。它有 229.9B 總參數，9.8B 每 token 啟用參數，還有 1,048,576 token 的 context。再加上原生圖片和影片理解，這不是一般聊天模型的玩法。

指標	MiniMax M3	代表什麼
發表日期	2026/06/01	很新的 open-weight 模型
總參數	229.9B	完整權重要放進 VRAM
每 token 啟用參數	9.8B	推理成本比 dense 巨獸低
Context 長度	1,048,576 tokens	可處理 1M token 輸入
SWE-Bench Pro	59.0%	軟體工程能力不差

M3 不是聊天玩具，是長上下文工作機

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

M3 的定位很清楚。它不是拿來做幾句寒暄的玩具。它是 MiniMax 的 Mixture-of-Experts 模型，裡面有 256 個細粒度 experts。每個 token 只會啟用 9.8B 參數，但整包 229.9B 權重都得留在記憶體附近。

這種設計很有意思。它讓推理成本不會像 dense 巨型模型那樣爆掉，但模型容量還是很大。對做 agentic coding、長文件分析、或多模態研究的人來說，這種取捨很實際。

MiniMax 也公開了 SWE-Bench Pro 的 59.0% 分數。這種 benchmark 比單純 code completion 更接近真實開發情境，因為它看的是模型能不能分步修 bug。

229.9B 總參數
9.8B 每 token 啟用參數
256 個 experts
59.0% SWE-Bench Pro
1,048,576 token context

1M context 靠的是 MSA，不是魔法

1M context 能成立，核心是 MiniMax Sparse Attention，簡稱 MSA。一般 full attention 的計算量會隨 context 長度快速炸開。到 1M tokens 時，普通 long-context 服務架構幾乎直接卡死。

MiniMax 表示，MSA 在 1M context 下，比 M2 有超過 9 倍 prefill 加速，decode 也超過 15 倍。每 token 計算量大概只有 M2 的 1/20。講白了，這才像能上線的東西，不是 demo 場面話。

“Sparse attention is the key to long-context efficiency.” — Tri Dao, FlashAttention-2 paper

這句話不是專門講 M3，但意思很對。你要拉長 context，又不想把 GPU 成本燒爆，attention 就得變聰明。M3 把這件事做得更完整，還把多模態輸入一起塞進去。

對開發者來說，實際好處很直白。整個 codebase、長聊天紀錄、法務文件、研究筆記，都可以放在同一次 request 裡。少一點切 chunk 的膠水程式，agent loop 也比較好寫。

MSA prefill 加速：超過 9 倍
MSA decode 加速：超過 15 倍
1M context 的每 token 計算量：約 M2 的 1/20
Context 長度：1,048,576 tokens

GPU 成本先看記憶體，再看精度

自架 M3，本質上是記憶體問題，接著才是成本問題。因為它是 MoE 模型，你不能只把 active experts 放進 VRAM，剩下的丟 CPU 期待沒事。那樣延遲會很難看。

Spheron 的數字很有參考價值。BF16 需要大約 460 GB VRAM。FP8 會降到約 230 GB。AWQ INT4 則降到約 115 GB，才有機會塞進較小的卡。

但 context 會再吃掉一層記憶體。KV cache 會跟 token 數一起長，就算 MSA 把 attention 計算壓下來也一樣。到了 1M context，FP8 的 KV cache 單獨就大約 120 GB，所以 2x H200 還不夠完整跑滿。

精度	模型 VRAM	常見 GPU 配置	能跑 1M context？
BF16	約 460 GB	4x H200 SXM5 或 6x H100 SXM5	可以
FP8	約 230 GB	4x H200 SXM5 或 8x H100 SXM5	可以
AWQ INT4	約 115 GB	1x H200 SXM5 或 2x H100 SXM5	只適合較短 context

價格也很現實。Spheron 在 2026 年 6 月 12 日的公開報價顯示，2x H200 SXM5 FP8 方案，spot 是每小時 3.64 美元，on-demand 是每小時 9.68 美元。4x H100 SXM5 FP8 則是 spot 5.72 美元，on-demand 15.68 美元。

所以 H200 比較像 FP8 服務的正解。H100 則是在你想要更多卡、又能接受較高時薪時才划算。真正該看的不是卡數，而是你要不要把 context 拉到 1M。

BF16 模型記憶體：約 460 GB
FP8 模型記憶體：約 230 GB
AWQ INT4 模型記憶體：約 115 GB
2x H200 spot：3.64 美元/小時
4x H100 spot：5.72 美元/小時

vLLM 是最實際的服務路線

vLLM 很適合想快速做出 OpenAI 相容 API 的團隊。Spheron 會選它，不是沒原因。它支援 tensor parallelism、expert parallelism，還能處理 FP8 KV cache，這些都跟 M3 很對味。

部署流程也不複雜。先在 Spheron 開 GPU node，再裝 CUDA 12.4 以上和需要的 Python 套件，接著從 Hugging Face 把模型抓下來，最後用正確的 parallelism 和 cache 參數啟動服務。

但有一個坑要注意。MSA 需要後端明確支援，所以你不能假設隨便一版 vLLM 都能跑。先鎖定支援 M3 的版本，再測 context、吞吐量、KV cache 行為，不然上線後才改就很痛。

如果你已經在用 SGLang，邏輯也差不多。當 context 拉到 128K 以上，服務框架的重要性會下降，GPU 預算才是主角。

這對真的要交付產品的團隊代表什麼

M3 讓 open-weight 模型的討論變得更務實。它把三件常常分開出現的能力合在一起：不錯的 coding 能力、多模態輸入、還有夠大的 context。對 coding agent、文件分析、研究助理這類產品，這組合很有吸引力。

但代價也很直白。你要完整吃到 1M token，代表你買的是多 GPU 基礎設施，不是單卡試玩。如果你的工作量只到 128K 或 256K，經濟性就會好很多，部署壓力也小一截。

我自己的判斷是，多數團隊一開始不會真的用滿 1M。比較可能的路線，是先拿 M3 做 128K 到 256K 的任務，再把完整 context 留給除錯、跨整個 codebase 的推理，或超長文件整理。

如果你正在規劃部署，先問自己一個問題：你要的是多模態長上下文，還是只要一個強一點的 open model？如果兩個都要，M3 值得你算 GPU 帳。若不是，選更小的模型通常更省事，也更省錢。

先別急著上 1M，先算清楚你的場景

MiniMax M3 的價值，不在於它很大而已，而在於它真的能把大 context 跑起來。這對台灣很多做 SaaS、內部知識搜尋、或 code assistant 的團隊，都很有參考性。

但我會很直接地說，1M context 不是每個產品都需要。你如果只是做客服摘要、文件問答、或一般 coding helper，128K 到 256K 通常就夠用了。先把需求切乾淨，再決定要不要付這張 GPU 帳單。

如果你最近剛好在評估自架 LLM，我建議先從 2x H200 或 4x H100 的成本模型開始算。把 token 成本、KV cache、吞吐量和延遲一起列出來，比只看 benchmark 分數有用多了。真的，這才是上線前該做的功課。

// 相關文章

MiniMax M3 自架 GPU 雲部署分析

M3 不是聊天玩具，是長上下文工作機

訂閱 AI 趨勢週報

1M context 靠的是 MSA，不是魔法

GPU 成本先看記憶體，再看精度

vLLM 是最實際的服務路線

這對真的要交付產品的團隊代表什麼

先別急著上 1M，先算清楚你的場景

Opus 5 讓你降成本不降品質

OpenAI 降價 GPT-5.6，AI 成本戰升溫

Opus 5 不是便宜替代品，而是 Anthropic 的定价宣言

OpenAI免費開放GPT-5.6給科學家

谷歌先推 Gemini 3.6 Flash，Pro 仍缺席

Kimi K3 逼矽谷選邊站