[TOOLS] 8 分鐘閱讀OraCore 編輯部

2026 年 LLM 微調要多少 VRAM

Spheron 2026 指南把 LLM 微調 VRAM 算清楚:7B 的 QLoRA 約 8 GB,70B 的全參數微調約 860 GB,差距大到會直接改變 GPU 採購決策。

分享 LinkedIn
2026 年 LLM 微調要多少 VRAM

這篇在講 LLM 微調時,full fine-tuning、LoRA、QLoRA 各自要多少 VRAM,差距從 8 GB 到 860 GB。

說真的,這份數字很殘酷。7B 模型用 QLoRA,約 8 GB 就能跑;70B 做 full fine-tuning,卻可能要 860 GB。這不是小差距,是直接換一種硬體世界。

我看完的第一個感想是,很多團隊根本不是卡在模型能力,而是卡在 GPU 記憶體。你如果只看 weights,八成會估錯。訓練還有 gradients、optimizer states、activations,這些才是吃 VRAM 的大頭。

模型Full fine-tuningLoRA r=64QLoRA r=64最低 GPU
7B/8B~88 GB~19-20 GB~8 GBRTX 5090 32 GB
14B~174 GB~35 GB~14 GBRTX 5090 32 GB
32B~394 GB~76 GB~28 GBH100 80 GB for LoRA
70B/72B~860 GB~159 GB~52 GBH100 80 GB for QLoRA
MoE 30B A3B~105 GB~69 GB~21 GBRTX 5090 32 GB

VRAM 為什麼會爆得這麼快

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這篇來自 Spheron2026 指南,核心很簡單。訓練時的記憶體,不是只有模型權重。它至少分成四塊:weights、gradients、optimizer states、activations。

2026 年 LLM 微調要多少 VRAM

這四塊不是一起長大。不同微調方法,會碰到不同部分。Full fine-tuning 會更新所有參數,所以四塊幾乎都要付錢。LoRA 只訓練 adapter。QLoRA 更狠,連 frozen base model 都壓到 4-bit NF4。

所以問題不是「模型多大」。問題是「你要動幾個參數」。這也是很多人第一次算 VRAM 時會翻車的原因。只算模型大小,通常會少一大截。

  • BF16 weights 約 2 bytes per parameter。
  • Adam 和 AdamW 會保留兩份 FP32 moment buffers。
  • QLoRA 把 frozen base 壓到 4-bit NF4,約 0.5 bytes per parameter。
  • Gradient checkpointing 可省 40-60% activations,但會多 25-30% 計算時間。

講白了,checkpointing 是拿時間換空間。VRAM 不夠時,它很實用。可是一旦你在意吞吐量,這招就會開始讓人皺眉。

Full fine-tuning 的成本真的很兇

Full fine-tuning 的好處是控制力最完整。缺點也很直接,就是記憶體帳單很難看。以 7B BF16 模型來看,Spheron 算出來大概是 14 GB weights、14 GB gradients、56 GB Adam states,再加約 4 GB activations,總共接近 88 GB。

這個數字已經超過單張 NVIDIA H100 80GB。到 70B 時,總量直接跳到約 860 GB。這時候你不是在挑 GPU,你是在挑分散式訓練方案。

文章裡提到 DeepSpeed ZeRO-3 和 FSDP2 這類 sharding 工具。這很合理,因為單卡早就不夠。問題只是,分散式訓練不是免費午餐,網路、同步、故障排除都會變麻煩。

“GPU memory is the constraint that determines whether your fine-tuning job runs at all,” said Mitrasish, co-founder and CTO at Spheron.

這句話很直白,也很真實。很多團隊以為多買幾張卡就解決了。實際上,有些模型的需求根本不是「多一點」而已,而是直接跨一個量級。

文章也給了 hourly pricing。7B full fine-tuning,2x A100 80G PCIe 約 $2.96/hr。32B 則是 5x A100 80G,約 $7.40/hr。70B 用 11x H100 SXM5,約 $55.77/hr。這些數字很適合拿去跟老闆談預算。

  • 7B full FT:約 88 GB,2x A100 80G 可處理。
  • 14B full FT:約 174 GB,通常要 3x A100 80G。
  • 32B full FT:約 394 GB,約需 5x A100 80G。
  • 70B full FT:約 860 GB,約需 11x H100 SXM5。

LoRA 便宜,但不是免死金牌

LoRA 常被講得很輕鬆,好像只要套個 adapter 就萬事 OK。其實沒有這麼美。LoRA 的 adapter 很小沒錯,但 frozen base model 還是要放在 VRAM 裡,而且通常還是 BF16。

2026 年 LLM 微調要多少 VRAM

所以 70B 做 LoRA 時,光 base weights 就大概 140 GB。你還沒算 activations、optimizer states,就已經先撞牆了。這也是為什麼 32B 以上的 LoRA,硬體門檻還是很高。

以 7B 來說,LoRA r=64 大概 19-20 GB,還算舒服。14B 約 35 GB,32 GB 卡就開始緊。32B 約 76 GB,基本上就要 80 GB 等級。這些數字很適合拿來做採購判斷。

  • 7B LoRA r=64:約 19-20 GB。
  • 14B LoRA r=64:約 35 GB,32 GB 卡偏緊。
  • 32B LoRA r=64:約 76 GB,接近 80 GB 門檻。
  • 70B LoRA r=64:約 159 GB,至少要 2x H100 SXM5。

這裡還有一個重點。LoRA 和 QLoRA 的 optimizer memory 很接近。因為兩者訓練的 adapter 差不多大。真正拉開差距的是 base model storage。

QLoRA 才是 70B 的現實解

QLoRA 的思路很直接。把 frozen base model 壓成 4-bit NF4,adapter 還是用 BF16。這樣一來,70B 的 base 大概 35 GB,adapter 與 gradients 各約 1.5 GB,optimizer state 約 5.6 GB,activations 約 8 GB,總共約 52 GB。

這個數字很重要,因為它能塞進單張 H100 80GB。跟 full fine-tuning 的 860 GB 比,差距大到像不同物種。你會發現,QLoRA 不是只是省一點,而是直接讓 70B 變成可操作。

Spheron 也提到品質落差。QLoRA 通常比 full fine-tuning 低 1-3%,比標準 LoRA 低 0.5-1%。老實說,這個 trade-off 很常是值得的。尤其當你的替代方案是開分散式訓練集群時。

文章還提到 Unsloth。它的 dynamic 4-bit 實作,被描述成比 8-bit 的 perplexity 差距只剩 0.02。這種細節對想把品質壓到極限的團隊很有用。

如果你想把方法選擇和成本一起看,Spheron 也連到它自己的 LLM fine-tuning guide for 2026training cost calculator。這很合理,因為 VRAM 只是第一關,時間和費用才是第二關。

這張表其實是在幫你選硬體

如果把 Spheron 的表格當成決策圖,就很好讀。7B 或 8B,QLoRA 跑 32 GB GPU 很舒服。14B 還能勉強塞進 32 GB,但餘裕不大。32B 時,LoRA 幾乎就要 80 GB。70B 時,QLoRA 反而是單卡最現實的選擇。

這會直接影響採購。你本來可能想買一張 80 GB 卡就解決 70B LoRA,結果會失望。反過來,如果你接受 QLoRA,同樣一張卡就能把專案跑起來,省掉很多分散式訓練麻煩。

  • 7B、8B:32 GB GPU 搭 QLoRA 很順。
  • 14B:32 GB 還能做,但 LoRA 已經偏緊。
  • 32B:LoRA 進入 80 GB 等級。
  • 70B:QLoRA 幾乎是單卡可行的最低門檻。

還有一個常被忽略的點。最便宜的 GPU,不一定是最便宜的 run。你如果被迫上多卡 sharding,網路和維運成本常常會吃掉原本省下來的錢。

2026 年做訓練規劃,先問這個

這篇最有價值的地方,是它把模糊問題變成尺寸表。你只要知道模型大小、方法、sequence length,大致就能推回 GPU 要買到哪一級。

我的判斷很直接。2026 年,QLoRA 會繼續是 32B 和 70B 團隊的主流選擇。Full fine-tuning 會留給有大集群、也真的需要完整控制力的團隊。

如果你今年要排訓練預算,先別問「能不能跑」。先問「我真的需要 full fine-tuning 嗎」。如果答案是否,那就別硬上 860 GB 那種規格。把錢省下來買更好的資料、更多實驗,通常更划算。

講白了,這篇不是在教你怎麼玩模型,而是在提醒你別把 GPU 預算算錯。下一次開案前,先把 7B、14B、32B、70B 的 VRAM 門檻列出來,很多決策會立刻清楚很多。