2026 年 LLM 微調要多少 VRAM
Spheron 2026 指南把 LLM 微調 VRAM 算清楚:7B 的 QLoRA 約 8 GB,70B 的全參數微調約 860 GB,差距大到會直接改變 GPU 採購決策。

這篇在講 LLM 微調時,full fine-tuning、LoRA、QLoRA 各自要多少 VRAM,差距從 8 GB 到 860 GB。
說真的,這份數字很殘酷。7B 模型用 QLoRA,約 8 GB 就能跑;70B 做 full fine-tuning,卻可能要 860 GB。這不是小差距,是直接換一種硬體世界。
我看完的第一個感想是,很多團隊根本不是卡在模型能力,而是卡在 GPU 記憶體。你如果只看 weights,八成會估錯。訓練還有 gradients、optimizer states、activations,這些才是吃 VRAM 的大頭。
| 模型 | Full fine-tuning | LoRA r=64 | QLoRA r=64 | 最低 GPU |
|---|---|---|---|---|
| 7B/8B | ~88 GB | ~19-20 GB | ~8 GB | RTX 5090 32 GB |
| 14B | ~174 GB | ~35 GB | ~14 GB | RTX 5090 32 GB |
| 32B | ~394 GB | ~76 GB | ~28 GB | H100 80 GB for LoRA |
| 70B/72B | ~860 GB | ~159 GB | ~52 GB | H100 80 GB for QLoRA |
| MoE 30B A3B | ~105 GB | ~69 GB | ~21 GB | RTX 5090 32 GB |
VRAM 為什麼會爆得這麼快
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這篇來自 Spheron 的 2026 指南,核心很簡單。訓練時的記憶體,不是只有模型權重。它至少分成四塊:weights、gradients、optimizer states、activations。

這四塊不是一起長大。不同微調方法,會碰到不同部分。Full fine-tuning 會更新所有參數,所以四塊幾乎都要付錢。LoRA 只訓練 adapter。QLoRA 更狠,連 frozen base model 都壓到 4-bit NF4。
所以問題不是「模型多大」。問題是「你要動幾個參數」。這也是很多人第一次算 VRAM 時會翻車的原因。只算模型大小,通常會少一大截。
- BF16 weights 約 2 bytes per parameter。
- Adam 和 AdamW 會保留兩份 FP32 moment buffers。
- QLoRA 把 frozen base 壓到 4-bit NF4,約 0.5 bytes per parameter。
- Gradient checkpointing 可省 40-60% activations,但會多 25-30% 計算時間。
講白了,checkpointing 是拿時間換空間。VRAM 不夠時,它很實用。可是一旦你在意吞吐量,這招就會開始讓人皺眉。
Full fine-tuning 的成本真的很兇
Full fine-tuning 的好處是控制力最完整。缺點也很直接,就是記憶體帳單很難看。以 7B BF16 模型來看,Spheron 算出來大概是 14 GB weights、14 GB gradients、56 GB Adam states,再加約 4 GB activations,總共接近 88 GB。
這個數字已經超過單張 NVIDIA H100 80GB。到 70B 時,總量直接跳到約 860 GB。這時候你不是在挑 GPU,你是在挑分散式訓練方案。
文章裡提到 DeepSpeed ZeRO-3 和 FSDP2 這類 sharding 工具。這很合理,因為單卡早就不夠。問題只是,分散式訓練不是免費午餐,網路、同步、故障排除都會變麻煩。
“GPU memory is the constraint that determines whether your fine-tuning job runs at all,” said Mitrasish, co-founder and CTO at Spheron.
這句話很直白,也很真實。很多團隊以為多買幾張卡就解決了。實際上,有些模型的需求根本不是「多一點」而已,而是直接跨一個量級。
文章也給了 hourly pricing。7B full fine-tuning,2x A100 80G PCIe 約 $2.96/hr。32B 則是 5x A100 80G,約 $7.40/hr。70B 用 11x H100 SXM5,約 $55.77/hr。這些數字很適合拿去跟老闆談預算。
- 7B full FT:約 88 GB,2x A100 80G 可處理。
- 14B full FT:約 174 GB,通常要 3x A100 80G。
- 32B full FT:約 394 GB,約需 5x A100 80G。
- 70B full FT:約 860 GB,約需 11x H100 SXM5。
LoRA 便宜,但不是免死金牌
LoRA 常被講得很輕鬆,好像只要套個 adapter 就萬事 OK。其實沒有這麼美。LoRA 的 adapter 很小沒錯,但 frozen base model 還是要放在 VRAM 裡,而且通常還是 BF16。

所以 70B 做 LoRA 時,光 base weights 就大概 140 GB。你還沒算 activations、optimizer states,就已經先撞牆了。這也是為什麼 32B 以上的 LoRA,硬體門檻還是很高。
以 7B 來說,LoRA r=64 大概 19-20 GB,還算舒服。14B 約 35 GB,32 GB 卡就開始緊。32B 約 76 GB,基本上就要 80 GB 等級。這些數字很適合拿來做採購判斷。
- 7B LoRA r=64:約 19-20 GB。
- 14B LoRA r=64:約 35 GB,32 GB 卡偏緊。
- 32B LoRA r=64:約 76 GB,接近 80 GB 門檻。
- 70B LoRA r=64:約 159 GB,至少要 2x H100 SXM5。
這裡還有一個重點。LoRA 和 QLoRA 的 optimizer memory 很接近。因為兩者訓練的 adapter 差不多大。真正拉開差距的是 base model storage。
QLoRA 才是 70B 的現實解
QLoRA 的思路很直接。把 frozen base model 壓成 4-bit NF4,adapter 還是用 BF16。這樣一來,70B 的 base 大概 35 GB,adapter 與 gradients 各約 1.5 GB,optimizer state 約 5.6 GB,activations 約 8 GB,總共約 52 GB。
這個數字很重要,因為它能塞進單張 H100 80GB。跟 full fine-tuning 的 860 GB 比,差距大到像不同物種。你會發現,QLoRA 不是只是省一點,而是直接讓 70B 變成可操作。
Spheron 也提到品質落差。QLoRA 通常比 full fine-tuning 低 1-3%,比標準 LoRA 低 0.5-1%。老實說,這個 trade-off 很常是值得的。尤其當你的替代方案是開分散式訓練集群時。
文章還提到 Unsloth。它的 dynamic 4-bit 實作,被描述成比 8-bit 的 perplexity 差距只剩 0.02。這種細節對想把品質壓到極限的團隊很有用。
如果你想把方法選擇和成本一起看,Spheron 也連到它自己的 LLM fine-tuning guide for 2026 和 training cost calculator。這很合理,因為 VRAM 只是第一關,時間和費用才是第二關。
這張表其實是在幫你選硬體
如果把 Spheron 的表格當成決策圖,就很好讀。7B 或 8B,QLoRA 跑 32 GB GPU 很舒服。14B 還能勉強塞進 32 GB,但餘裕不大。32B 時,LoRA 幾乎就要 80 GB。70B 時,QLoRA 反而是單卡最現實的選擇。
這會直接影響採購。你本來可能想買一張 80 GB 卡就解決 70B LoRA,結果會失望。反過來,如果你接受 QLoRA,同樣一張卡就能把專案跑起來,省掉很多分散式訓練麻煩。
- 7B、8B:32 GB GPU 搭 QLoRA 很順。
- 14B:32 GB 還能做,但 LoRA 已經偏緊。
- 32B:LoRA 進入 80 GB 等級。
- 70B:QLoRA 幾乎是單卡可行的最低門檻。
還有一個常被忽略的點。最便宜的 GPU,不一定是最便宜的 run。你如果被迫上多卡 sharding,網路和維運成本常常會吃掉原本省下來的錢。
2026 年做訓練規劃,先問這個
這篇最有價值的地方,是它把模糊問題變成尺寸表。你只要知道模型大小、方法、sequence length,大致就能推回 GPU 要買到哪一級。
我的判斷很直接。2026 年,QLoRA 會繼續是 32B 和 70B 團隊的主流選擇。Full fine-tuning 會留給有大集群、也真的需要完整控制力的團隊。
如果你今年要排訓練預算,先別問「能不能跑」。先問「我真的需要 full fine-tuning 嗎」。如果答案是否,那就別硬上 860 GB 那種規格。把錢省下來買更好的資料、更多實驗,通常更划算。
講白了,這篇不是在教你怎麼玩模型,而是在提醒你別把 GPU 預算算錯。下一次開案前,先把 7B、14B、32B、70B 的 VRAM 門檻列出來,很多決策會立刻清楚很多。