[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-gpu-vram-needed-llm-fine-tuning-2026-zh":3,"article-related-gpu-vram-needed-llm-fine-tuning-2026-zh":33,"series-tools-5358fb05-efb5-4238-abc5-fb3933da13e7":76},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"5358fb05-efb5-4238-abc5-fb3933da13e7","gpu-vram-needed-llm-fine-tuning-2026-zh","2026 年 LLM 微調要多少 VRAM","\u003Cp data-speakable=\"summary\">這篇在講 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 微調時，full fine-tuning、LoRA、QLoRA 各自要多少 VRAM，差距從 8 GB 到 860 GB。\u003C\u002Fp>\u003Cp>說真的，這份數字很殘酷。7B 模型用 QLoRA，約 8 GB 就能跑；70B 做 full fine-tuning，卻可能要 860 GB。這不是小差距，是直接換一種硬體世界。\u003C\u002Fp>\u003Cp>我看完的第一個感想是，很多團隊根本不是卡在模型能力，而是卡在 \u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa> 記憶體。你如果只看 weights，八成會估錯。訓練還有 gradients、optimizer states、activations，這些才是吃 VRAM 的大頭。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>Full fine-tuning\u003C\u002Fth>\u003Cth>LoRA r=64\u003C\u002Fth>\u003Cth>QLoRA r=64\u003C\u002Fth>\u003Cth>最低 GPU\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>7B\u002F8B\u003C\u002Ftd>\u003Ctd>~88 GB\u003C\u002Ftd>\u003Ctd>~19-20 GB\u003C\u002Ftd>\u003Ctd>~8 GB\u003C\u002Ftd>\u003Ctd>RTX 5090 32 GB\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>14B\u003C\u002Ftd>\u003Ctd>~174 GB\u003C\u002Ftd>\u003Ctd>~35 GB\u003C\u002Ftd>\u003Ctd>~14 GB\u003C\u002Ftd>\u003Ctd>RTX 5090 32 GB\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>32B\u003C\u002Ftd>\u003Ctd>~394 GB\u003C\u002Ftd>\u003Ctd>~76 GB\u003C\u002Ftd>\u003Ctd>~28 GB\u003C\u002Ftd>\u003Ctd>H100 80 GB for LoRA\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>70B\u002F72B\u003C\u002Ftd>\u003Ctd>~860 GB\u003C\u002Ftd>\u003Ctd>~159 GB\u003C\u002Ftd>\u003Ctd>~52 GB\u003C\u002Ftd>\u003Ctd>H100 80 GB for QLoRA\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>MoE 30B A3B\u003C\u002Ftd>\u003Ctd>~105 GB\u003C\u002Ftd>\u003Ctd>~69 GB\u003C\u002Ftd>\u003Ctd>~21 GB\u003C\u002Ftd>\u003Ctd>RTX 5090 32 GB\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>VRAM 為什麼會爆得這麼快\u003C\u002Fh2>\u003Cp>這篇來自 \u003Ca href=\"https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fgpu-vram-requirements-fine-tune-llm-2026\u002F\" target=\"_blank\" rel=\"noopener\">Spheron\u003C\u002Fa> 的 \u003Ca href=\"\u002Fnews\u002Fevaluation-protocols-fine-tuned-llms-2026-zh\">2026\u003C\u002Fa> 指南，核心很簡單。訓練時的記憶體，不是只有模型權重。它至少分成四塊：weights、gradients、optimizer states、activations。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1783128777725-3n1p.png\" alt=\"2026 年 LLM 微調要多少 VRAM\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這四塊不是一起長大。不同微調方法，會碰到不同部分。Full fine-tuning 會更新所有參數，所以四塊幾乎都要付錢。LoRA 只訓練 adapter。QLoRA 更狠，連 frozen base model 都壓到 4-bit NF4。\u003C\u002Fp>\u003Cp>所以問題不是「模型多大」。問題是「你要動幾個參數」。這也是很多人第一次算 VRAM 時會翻車的原因。只算模型大小，通常會少一大截。\u003C\u002Fp>\u003Cul>\u003Cli>BF16 weights 約 2 bytes per parameter。\u003C\u002Fli>\u003Cli>Adam 和 AdamW 會保留兩份 FP32 moment buffers。\u003C\u002Fli>\u003Cli>QLoRA 把 frozen base 壓到 4-bit NF4，約 0.5 bytes per parameter。\u003C\u002Fli>\u003Cli>Gradient checkpointing 可省 40-60% activations，但會多 25-30% 計算時間。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>講白了，checkpointing 是拿時間換空間。VRAM 不夠時，它很實用。可是一旦你在意吞吐量，這招就會開始讓人皺眉。\u003C\u002Fp>\u003Ch2>Full fine-tuning 的成本真的很兇\u003C\u002Fh2>\u003Cp>Full fine-tuning 的好處是控制力最完整。缺點也很直接，就是記憶體帳單很難看。以 7B BF16 模型來看，Spheron 算出來大概是 14 GB weights、14 GB gradients、56 GB Adam states，再加約 4 GB activations，總共接近 88 GB。\u003C\u002Fp>\u003Cp>這個數字已經超過單張 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fh100\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA H100\u003C\u002Fa> 80GB。到 70B 時，總量直接跳到約 860 GB。這時候你不是在挑 GPU，你是在挑分散式訓練方案。\u003C\u002Fp>\u003Cp>文章裡提到 \u003Ca href=\"https:\u002F\u002Fwww.deepspeed.ai\u002F\" target=\"_blank\" rel=\"noopener\">DeepSpeed\u003C\u002Fa> ZeRO-3 和 FSDP2 這類 sharding 工具。這很合理，因為單卡早就不夠。問題只是，分散式訓練不是免費午餐，網路、同步、故障排除都會變麻煩。\u003C\u002Fp>\u003Cblockquote>“GPU memory is the constraint that determines whether your fine-tuning job runs at all,” said Mitrasish, co-founder and CTO at Spheron.\u003C\u002Fblockquote>\u003Cp>這句話很直白，也很真實。很多團隊以為多買幾張卡就解決了。實際上，有些模型的需求根本不是「多一點」而已，而是直接跨一個量級。\u003C\u002Fp>\u003Cp>文章也給了 hourly pricing。7B full fine-tuning，2x A100 80G PCIe 約 $2.96\u002Fhr。32B 則是 5x A100 80G，約 $7.40\u002Fhr。70B 用 11x H100 SXM5，約 $55.77\u002Fhr。這些數字很適合拿去跟老闆談預算。\u003C\u002Fp>\u003Cul>\u003Cli>7B full FT：約 88 GB，2x A100 80G 可處理。\u003C\u002Fli>\u003Cli>14B full FT：約 174 GB，通常要 3x A100 80G。\u003C\u002Fli>\u003Cli>32B full FT：約 394 GB，約需 5x A100 80G。\u003C\u002Fli>\u003Cli>70B full FT：約 860 GB，約需 11x H100 SXM5。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>LoRA 便宜，但不是免死金牌\u003C\u002Fh2>\u003Cp>LoRA 常被講得很輕鬆，好像只要套個 adapter 就萬事 OK。其實沒有這麼美。LoRA 的 adapter 很小沒錯，但 frozen base model 還是要放在 VRAM 裡，而且通常還是 BF16。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1783128782603-1wuw.png\" alt=\"2026 年 LLM 微調要多少 VRAM\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>所以 70B 做 LoRA 時，光 base weights 就大概 140 GB。你還沒算 activations、optimizer states，就已經先撞牆了。這也是為什麼 32B 以上的 LoRA，硬體門檻還是很高。\u003C\u002Fp>\u003Cp>以 7B 來說，LoRA r=64 大概 19-20 GB，還算舒服。14B 約 35 GB，32 GB 卡就開始緊。32B 約 76 GB，基本上就要 80 GB 等級。這些數字很適合拿來做採購判斷。\u003C\u002Fp>\u003Cul>\u003Cli>7B LoRA r=64：約 19-20 GB。\u003C\u002Fli>\u003Cli>14B LoRA r=64：約 35 GB，32 GB 卡偏緊。\u003C\u002Fli>\u003Cli>32B LoRA r=64：約 76 GB，接近 80 GB 門檻。\u003C\u002Fli>\u003Cli>70B LoRA r=64：約 159 GB，至少要 2x H100 SXM5。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡還有一個重點。LoRA 和 QLoRA 的 optimizer memory 很接近。因為兩者訓練的 adapter 差不多大。真正拉開差距的是 base model storage。\u003C\u002Fp>\u003Ch2>QLoRA 才是 70B 的現實解\u003C\u002Fh2>\u003Cp>QLoRA 的思路很直接。把 frozen base model 壓成 4-bit NF4，adapter 還是用 BF16。這樣一來，70B 的 base 大概 35 GB，adapter 與 gradients 各約 1.5 GB，optimizer state 約 5.6 GB，activations 約 8 GB，總共約 52 GB。\u003C\u002Fp>\u003Cp>這個數字很重要，因為它能塞進單張 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fh100\u002F\" target=\"_blank\" rel=\"noopener\">H100\u003C\u002Fa> 80GB。跟 full fine-tuning 的 860 GB 比，差距大到像不同物種。你會發現，QLoRA 不是只是省一點，而是直接讓 70B \u003Ca href=\"\u002Fnews\u002Fornith-1-agent-coding-server-template-zh\">變成\u003C\u002Fa>可操作。\u003C\u002Fp>\u003Cp>Spheron 也提到品質落差。QLoRA 通常比 full fine-tuning 低 1-3%，比標準 LoRA 低 0.5-1%。老實說，這個 trade-off 很常是值得的。尤其當你的替代方案是開分散式訓練集群時。\u003C\u002Fp>\u003Cp>文章還提到 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Funslothai\u002Funsloth\" target=\"_blank\" rel=\"noopener\">Unsloth\u003C\u002Fa>。它的 dynamic 4-bit 實作，被描述成比 8-bit 的 perplexity 差距\u003Ca href=\"\u002Fnews\u002Ffable5-jiejin-hou-zhi-sheng-geng-zhai-nengli-zh\">只剩\u003C\u002Fa> 0.02。這種細節對想把品質壓到極限的團隊很有用。\u003C\u002Fp>\u003Cp>如果你想把方法選擇和成本一起看，Spheron 也連到它自己的 \u003Ca href=\"https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fllm-fine-tuning-guide-2026\u002F\" target=\"_blank\" rel=\"noopener\">LLM fine-tuning guide for 2026\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fllm-training-cost-calculator\u002F\" target=\"_blank\" rel=\"noopener\">training cost calculator\u003C\u002Fa>。這很合理，因為 VRAM 只是第一關，時間和費用才是第二關。\u003C\u002Fp>\u003Ch2>這張表其實是在幫你選硬體\u003C\u002Fh2>\u003Cp>如果把 Spheron 的表格當成決策圖，就很好讀。7B 或 8B，QLoRA 跑 32 GB GPU 很舒服。14B 還能勉強塞進 32 GB，但餘裕不大。32B 時，LoRA 幾乎就要 80 GB。70B 時，QLoRA 反而是單卡最現實的選擇。\u003C\u002Fp>\u003Cp>這會直接影響採購。你本來可能想買一張 80 GB 卡就解決 70B LoRA，結果會失望。反過來，如果你接受 QLoRA，同樣一張卡就能把專案跑起來，省掉很多分散式訓練麻煩。\u003C\u002Fp>\u003Cul>\u003Cli>7B、8B：32 GB GPU 搭 QLoRA 很順。\u003C\u002Fli>\u003Cli>14B：32 GB 還能做，但 LoRA 已經偏緊。\u003C\u002Fli>\u003Cli>32B：LoRA 進入 80 GB 等級。\u003C\u002Fli>\u003Cli>70B：QLoRA 幾乎是單卡可行的最低門檻。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>還有一個常被忽略的點。最便宜的 GPU，不一定是最便宜的 run。你如果被迫上多卡 sharding，網路和維運成本常常會吃掉原本省下來的錢。\u003C\u002Fp>\u003Ch2>2026 年做訓練規劃，先問這個\u003C\u002Fh2>\u003Cp>這篇最有價值的地方，是它把模糊問題變成尺寸表。你只要知道模型大小、方法、sequence length，大致就能推回 GPU 要買到哪一級。\u003C\u002Fp>\u003Cp>我的判斷很直接。2026 年，QLoRA 會繼續是 32B 和 70B 團隊的主流選擇。Full fine-tuning 會留給有大集群、也真的需要完整控制力的團隊。\u003C\u002Fp>\u003Cp>如果你今年要排訓練預算，先別問「能不能跑」。先問「我真的需要 full fine-tuning 嗎」。如果答案是否，那就別硬上 860 GB 那種規格。把錢省下來買更好的資料、更多實驗，通常更划算。\u003C\u002Fp>\u003Cp>講白了，這篇不是在教你怎麼玩模型，而是在提醒你別把 GPU 預算算錯。下一次開案前，先把 7B、14B、32B、70B 的 VRAM 門檻列出來，很多決策會立刻清楚很多。\u003C\u002Fp>","Spheron 2026 指南把 LLM 微調 VRAM 算清楚：7B 的 QLoRA 約 8 GB，70B 的全參數微調約 860 GB，差距大到會直接改變 GPU 採購決策。","www.spheron.network","https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fgpu-vram-requirements-fine-tune-llm-2026\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1783128777725-3n1p.png","tools","zh","fa7e59ac-8216-4826-84a1-3ae5a7fc4f57",[17,18,19,20,21,22,23,24],"LLM 微調","GPU VRAM","LoRA","QLoRA","full fine-tuning","H100","A100","DeepSpeed",[26,27,28],"7B 到 70B 的 VRAM 差距非常大，方法選錯就會直接卡死專案。","QLoRA 是 70B 單卡可行的主要方案，full fine-tuning 幾乎一定要多卡。","LoRA 省的是 adapter，不是 base model，本體還是要先塞進 VRAM。",0,"2026-07-04T01:32:33.595421+00:00","2026-07-04T01:32:33.576+00:00","c3c88dd2-a940-438a-b359-0e5a24562273",{"tags":34,"relatedLang":35,"relatedPosts":39},[],{"id":15,"slug":36,"title":37,"language":38},"gpu-vram-needed-llm-fine-tuning-2026-en","GPU VRAM Needed for LLM Fine-Tuning in 2026","en",[40,46,52,58,64,70],{"id":41,"slug":42,"title":43,"cover_image":44,"image_url":44,"created_at":45,"category":13},"9568ce15-1e27-450b-8c62-c6c97a94372d","claude-sonnet-5-shangshou-bushu-yu-pinggu-zh","Claude Sonnet 5 上手部署与评估","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1783125163927-v143.png","2026-07-04T00:32:19.271862+00:00",{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"5de8c9bb-60f5-40f5-93a1-23f524010620","codex-chat-to-delivery-ai-coding-zh","Codex把聊天改成交付","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1783087395827-uztj.png","2026-07-03T14:02:50.287547+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"51914b0b-b516-4c9c-818d-ac4ae593d200","mistral-ocr-4-prices-document-ai-enterprise-zh","Mistral OCR 4 把文件 AI 變成採購題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1783022578850-0p9l.png","2026-07-02T20:02:34.687933+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"c518a84d-7aef-4640-8a6b-1fcdeedc0800","cloudflare-policy-turns-crawlers-into-paid-access-zh","Cloudflare 把爬蟲變成付費入口","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782981207350-jf81.png","2026-07-02T08:32:57.692933+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"3de93c9c-1714-45c0-a972-eef8240f9bf4","visual-studio-copilot-ide-workflow-zh","Visual Studio 把 Copilot 變工作流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782957797914-x775.png","2026-07-02T02:02:50.951099+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"2ffaf5e5-e155-47dd-80cd-af62c3705516","databricks-ai-gateway-inference-tables-served-models-zh","Databricks 為模型服務加上 AI Gateway 推論表","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782939770301-2a9e.png","2026-07-01T21:02:20.660434+00:00",[77,82,87,92,97,102,107,112,117,122],{"id":78,"slug":79,"title":80,"created_at":81},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":83,"slug":84,"title":85,"created_at":86},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]