[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-deploy-minimax-m3-with-vllm-openai-api-zh":3,"article-related-deploy-minimax-m3-with-vllm-openai-api-zh":30,"series-tools-7beaabe3-5421-4e2b-a42a-d1a7b669be12":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"7beaabe3-5421-4e2b-a42a-d1a7b669be12","deploy-minimax-m3-with-vllm-openai-api-zh","用 vLLM 部署 MiniMax M3 並開啟 OpenAI API","\u003Cp data-speakable=\"summary\">這篇教你用 \u003Ca href=\"\u002Ftag\u002Fvllm\">vLLM\u003C\u002Fa> 在本機或伺服器部署 MiniMax M3，並開出相容 \u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> 的 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 端點。\u003C\u002Fp>\u003Cp>這份操作指南是給想把 MiniMax M3 以服務形式跑起來的開發者。照著做完，你會得到一個可用的模型伺服器、已啟用工具呼叫與推理解析的設定，以及一組可以直接驗證連線的測試指令。\u003C\u002Fp>\u003Cp>你也會清楚知道部署時最重要的幾個元件：GPU 存取、Hugging Face 快取掛載、張量平行設定，還有 vLLM 針對 MiniMax M3 所需的啟動參數。\u003C\u002Fp>\u003Ch2>開始之前\u003C\u002Fh2>\u003Cul>\u003Cli>已安裝 Docker 24+。\u003C\u002Fli>\u003Cli>主機具備 NVIDIA GPU，且驅動已支援 CUDA。\u003C\u002Fli>\u003Cli>至少 1 張 GPU；示範的張量平行設定建議 8 張 GPU。\u003C\u002Fli>\u003Cli>已申請 Hugging Face 帳號，並可存取 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FMiniMaxAI\u002FMiniMax-M3-MXFP8\">MiniMaxAI\u002FMiniMax-M3-MXFP8\u003C\u002Fa> 模型。\u003C\u002Fli>\u003Cli>本機已完成 \u003Ccode>huggingface-cli login\u003C\u002Fcode>，或已準備等效的祕密掛載。\u003C\u002Fli>\u003Cli>Linux 主機可使用 \u003Ccode>--privileged\u003C\u002Fcode> 與 \u003Ccode>--ipc=host\u003C\u002Fcode> 參數。\u003C\u002Fli>\u003Cli>磁碟空間充足，建議至少保留 100 GB 可用空間。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>Step 1: 下載 vLLM 映像檔\u003C\u002Fh2>\u003Cp>這一步的目的，是先準備好已包含 OpenAI 相容伺服器進入點的容器映像檔，讓後續啟動時不用額外拼裝\u003Ca href=\"\u002Fnews\u002Fdesignmd-agent-ready-ui-specs-zh\">執行\u003C\u002Fa>環境。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781954276176-k5fw.png\" alt=\"用 vLLM 部署 MiniMax M3 並開啟 OpenAI API\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cpre>\u003Ccode>docker pull vllm\u002Fvllm-openai:minimax-m3\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>驗收方式很簡單：下載完成後，執行 \u003Ccode>\u003Ca href=\"\u002Ftag\u002Fdocker\">docker\u003C\u002Fa> images\u003C\u002Fcode>，你應該看到 \u003Ccode>vllm\u002Fvllm-openai\u003C\u002Fcode> 與 \u003Ccode>minimax-m3\u003C\u002Fcode> 標籤出現在清單中。\u003C\u002Fp>\u003Ch2>Step 2: 建立 Hugging Face 快取資料夾\u003C\u002Fh2>\u003Cp>這一步的目的，是把模型權重與 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 快取固定在主機上，避免每次重啟容器都重新下載。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781954272967-5pob.png\" alt=\"用 vLLM 部署 MiniMax M3 並開啟 OpenAI API\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cpre>\u003Ccode>mkdir -p ~\u002F.cache\u002Fhuggingface\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>接著確認你已經登入 Hugging Face，或已把 token 以祕密掛載方式提供給容器。驗收時，你應該能在 \u003Ccode>~\u002F.cache\u002Fhuggingface\u003C\u002Fcode> 看到快取目錄，第一次下載模型後也會出現對應檔案。\u003C\u002Fp>\u003Ch2>Step 3: 啟動 MiniMax M3 服務\u003C\u002Fh2>\u003Cp>這一步的目的，是把 MiniMax M3 以 API 服務形式跑起來，並套用 vLLM 對應的模型參數與解析器設定。\u003C\u002Fp>\u003Cpre>\u003Ccode>docker run --gpus all --privileged --ipc=host -p 8000:8000 \\\n  -v ~\u002F.cache\u002Fhuggingface:\u002Froot\u002F.cache\u002Fhuggingface \\\n  vllm\u002Fvllm-openai:minimax-m3 MiniMaxAI\u002FMiniMax-M3-MXFP8 \\\n  --block-size 128 \\\n  --tensor-parallel-size 8 \\\n  --tool-call-parser minimax_m3 \\\n  --enable-auto-tool-choice \\\n  --reasoning-parser minimax_m3\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>驗收時，你應該看到 vLLM 日誌出現模型載入、tokenizer 初始化，以及伺服器綁定到 \u003Ccode>0.0.0.0:8000\u003C\u002Fcode>。如果模型正在下載，前面會先出現進度輸出，這是正常現象。\u003C\u002Fp>\u003Ch2>Step 4: 查詢模型清單端點\u003C\u002Fh2>\u003Cp>這一步的目的，是確認 OpenAI 相容路徑真的有回應，而不是只有容器在背景執行。\u003C\u002Fp>\u003Cpre>\u003Ccode>curl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fmodels\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>驗收時，你應該看到一段 JSON 回應，內容包含已載入的模型或可用模型項目。只要這個端點能正常回應，就代表服務已經可被外部呼叫。\u003C\u002Fp>\u003Ch2>Step 5: 測試聊天與工具呼叫\u003C\u002Fh2>\u003Cp>這一步的目的，是確認 MiniMax M3 的工具呼叫與推理解析路徑都已啟用，之後才能接到代理人框架或自訂客戶端。\u003C\u002Fp>\u003Cpre>\u003Ccode>curl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H 'Content-Type: application\u002Fjson' \\\n  -d '{\n    \"model\": \"MiniMaxAI\u002FMiniMax-M3-MXFP8\",\n    \"messages\": [{\"role\": \"user\", \"content\": \"列出你會用來檢查程式碼庫的兩種工具。\"}],\n    \"max_tokens\": 64\n  }'\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>驗收時，你應該看到聊天完成回應，而不是錯誤訊息；同時伺服器日誌也應顯示請求有走進 MiniMax M3 的解析流程。這表示你的端點已經可以交給應用程式直接使用。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>基準／優化前\u003C\u002Fth>\u003Cth>結果／優化後\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>API 相容性\u003C\u002Ftd>\u003Ctd>沒有本機端點\u003C\u002Ftd>\u003Ctd>8000 埠提供 OpenAI 相容服務\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>工具呼叫支援\u003C\u002Ftd>\u003Ctd>未啟用\u003C\u002Ftd>\u003Ctd>已啟用 \u003Ccode>--enable-auto-tool-choice\u003C\u002Fcode> 與 \u003Ccode>--tool-call-parser minimax_m3\u003C\u002Fcode>\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>推理解析\u003C\u002Ftd>\u003Ctd>未啟用\u003C\u002Ftd>\u003Ctd>已啟用 \u003Ccode>--reasoning-parser minimax_m3\u003C\u002Fcode>\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>平行處理\u003C\u002Ftd>\u003Ctd>單裝置預設\u003C\u002Ftd>\u003Ctd>設定為 \u003Ccode>--tensor-parallel-size 8\u003C\u002Fcode>\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>常見錯誤\u003C\u002Fh2>\u003Cul>\u003Cli>模型名稱打錯。修法：請完整使用 \u003Ccode>MiniMaxAI\u002FMiniMax-M3-MXFP8\u003C\u002Fcode>，除非 vLLM 官方文件有更新。\u003C\u002Fli>\u003Cli>Docker 沒有 GPU 權限。修法：安裝 NVIDIA Container Toolkit，並重新以 \u003Ccode>--gpus all\u003C\u002Fcode> 啟動。\u003C\u002Fli>\u003Cli>張量平行數大於可見 GPU 數。修法：把 \u003Ccode>--tensor-parallel-size\u003C\u002Fcode> 調整為實際可用 GPU 數量，或在較小機器上降低設定。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>接下來可以看什麼\u003C\u002Fh2>\u003Cp>當服務\u003Ca href=\"\u002Fnews\u002Fnamastack-turns-outbox-pain-into-reliable-events-zh\">穩定\u003C\u002Fa>後，下一步可以\u003Ca href=\"\u002Fnews\u002Fgoogle-ax-resumable-agent-runtime-zh\">把代理\u003C\u002Fa>人框架或客戶端 SDK 接到 \u003Ccode>http:\u002F\u002Flocalhost:8000\u002Fv1\u003C\u002Fcode>，再依照 \u003Ca href=\"https:\u002F\u002Frecipes.vllm.ai\u002FMiniMaxAI\u002FMiniMax-M3?variant=mxfp8\">vLLM recipe\u003C\u002Fa> 與 MiniMax M3 的說明，調整上下文長度、批次處理與 GPU 記憶體設定。\u003C\u002Fp>","這篇教你用 vLLM 在本機或伺服器部署 MiniMax M3，並開出相容 OpenAI 的 API 端點。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2049845285195605901",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781954276176-k5fw.png","tools","zh","77c071b4-4373-449e-b812-2577d9644514",[17,18,19,20,21],"vLLM","MiniMax M3","OpenAI 相容 API","Docker","Hugging Face",[23,24,25],"你可以用 vLLM 直接把 MiniMax M3 部署成 OpenAI 相容服務。","啟動時要同時處理 GPU、Hugging Face 快取與張量平行設定。","完成後可用 \u002Fv1\u002Fmodels 與 \u002Fv1\u002Fchat\u002Fcompletions 立即驗證服務。",0,"2026-06-20T11:17:30.019598+00:00","2026-06-20T11:17:30.001+00:00","0bcc2695-eb83-4006-9d21-b8d97acff01f",{"tags":31,"relatedLang":38,"relatedPosts":42},[32,34,36],{"name":21,"slug":33},"hugging-face",{"name":17,"slug":35},"vllm",{"name":20,"slug":37},"docker",{"id":15,"slug":39,"title":40,"language":41},"deploy-minimax-m3-with-vllm-openai-api-en","Deploy MiniMax M3 with vLLM OpenAI API","en",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"fe9fecba-d6ae-4293-af38-e68e6c2c111b","namastack-turns-outbox-pain-into-reliable-events-zh","Namastack 把 outbox 變穩定事件流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781949794069-sfg2.png","2026-06-20T10:02:49.479466+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"b8a08645-4041-4124-a44d-c5b3336bbd65","claude-design-assets-to-design-system-zh","Claude Design 把素材變成系統","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781946199259-wjwr.png","2026-06-20T09:02:46.505161+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"f2fadb5a-41e2-4095-9467-d120f9acee99","vs-code-turns-folder-into-workspace-zh","VS Code 把資料夾變工作區","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781938995715-bygi.png","2026-06-20T07:02:52.407399+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"95d2b100-b1b0-43ae-af46-7f9c85d93d00","midjourney-medical-turns-scans-into-spa-zh","Midjourney Medical把掃描變成Spa","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781909284807-n67y.png","2026-06-19T22:47:40.551779+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"563c146c-b078-4610-93fa-af399a02c89a","three-multimodal-models-work-in-claude-code-zh","Claude Code 現在能接三個多模態模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781892161193-9rla.png","2026-06-19T18:02:15.364369+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"86316fab-2e99-4958-b79f-8c54ce44d5c4","ollama-turns-local-llms-into-copyable-setup-zh","Ollama 讓本地 LLM 變可抄配置","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781885006324-jvvo.png","2026-06-19T16:02:56.601682+00:00",[80,85,90,95,100,105,110,115,120,125],{"id":81,"slug":82,"title":83,"created_at":84},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]