2026 年 LLM 微調要多少 VRAM

OraCore Editors

返回首頁

[TOOLS] 2026年7月4日8 分鐘閱讀OraCore 編輯部

2026 年 LLM 微調要多少 VRAM

Spheron 2026 指南把 LLM 微調 VRAM 算清楚：7B 的 QLoRA 約 8 GB，70B 的全參數微調約 860 GB，差距大到會直接改變 GPU 採購決策。

分享 LinkedIn

這篇在講 LLM 微調時，full fine-tuning、LoRA、QLoRA 各自要多少 VRAM，差距從 8 GB 到 860 GB。

說真的，這份數字很殘酷。7B 模型用 QLoRA，約 8 GB 就能跑；70B 做 full fine-tuning，卻可能要 860 GB。這不是小差距，是直接換一種硬體世界。

我看完的第一個感想是，很多團隊根本不是卡在模型能力，而是卡在 GPU 記憶體。你如果只看 weights，八成會估錯。訓練還有 gradients、optimizer states、activations，這些才是吃 VRAM 的大頭。

模型	Full fine-tuning	LoRA r=64	QLoRA r=64	最低 GPU
7B/8B	~88 GB	~19-20 GB	~8 GB	RTX 5090 32 GB
14B	~174 GB	~35 GB	~14 GB	RTX 5090 32 GB
32B	~394 GB	~76 GB	~28 GB	H100 80 GB for LoRA
70B/72B	~860 GB	~159 GB	~52 GB	H100 80 GB for QLoRA
MoE 30B A3B	~105 GB	~69 GB	~21 GB	RTX 5090 32 GB

VRAM 為什麼會爆得這麼快

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇來自 Spheron 的 2026 指南，核心很簡單。訓練時的記憶體，不是只有模型權重。它至少分成四塊：weights、gradients、optimizer states、activations。

這四塊不是一起長大。不同微調方法，會碰到不同部分。Full fine-tuning 會更新所有參數，所以四塊幾乎都要付錢。LoRA 只訓練 adapter。QLoRA 更狠，連 frozen base model 都壓到 4-bit NF4。

所以問題不是「模型多大」。問題是「你要動幾個參數」。這也是很多人第一次算 VRAM 時會翻車的原因。只算模型大小，通常會少一大截。

BF16 weights 約 2 bytes per parameter。
Adam 和 AdamW 會保留兩份 FP32 moment buffers。
QLoRA 把 frozen base 壓到 4-bit NF4，約 0.5 bytes per parameter。
Gradient checkpointing 可省 40-60% activations，但會多 25-30% 計算時間。

講白了，checkpointing 是拿時間換空間。VRAM 不夠時，它很實用。可是一旦你在意吞吐量，這招就會開始讓人皺眉。

Full fine-tuning 的成本真的很兇

Full fine-tuning 的好處是控制力最完整。缺點也很直接，就是記憶體帳單很難看。以 7B BF16 模型來看，Spheron 算出來大概是 14 GB weights、14 GB gradients、56 GB Adam states，再加約 4 GB activations，總共接近 88 GB。

這個數字已經超過單張 NVIDIA H100 80GB。到 70B 時，總量直接跳到約 860 GB。這時候你不是在挑 GPU，你是在挑分散式訓練方案。

文章裡提到 DeepSpeed ZeRO-3 和 FSDP2 這類 sharding 工具。這很合理，因為單卡早就不夠。問題只是，分散式訓練不是免費午餐，網路、同步、故障排除都會變麻煩。

“GPU memory is the constraint that determines whether your fine-tuning job runs at all,” said Mitrasish, co-founder and CTO at Spheron.

這句話很直白，也很真實。很多團隊以為多買幾張卡就解決了。實際上，有些模型的需求根本不是「多一點」而已，而是直接跨一個量級。

文章也給了 hourly pricing。7B full fine-tuning，2x A100 80G PCIe 約 $2.96/hr。32B 則是 5x A100 80G，約 $7.40/hr。70B 用 11x H100 SXM5，約 $55.77/hr。這些數字很適合拿去跟老闆談預算。

7B full FT：約 88 GB，2x A100 80G 可處理。
14B full FT：約 174 GB，通常要 3x A100 80G。
32B full FT：約 394 GB，約需 5x A100 80G。
70B full FT：約 860 GB，約需 11x H100 SXM5。

LoRA 便宜，但不是免死金牌

LoRA 常被講得很輕鬆，好像只要套個 adapter 就萬事 OK。其實沒有這麼美。LoRA 的 adapter 很小沒錯，但 frozen base model 還是要放在 VRAM 裡，而且通常還是 BF16。

所以 70B 做 LoRA 時，光 base weights 就大概 140 GB。你還沒算 activations、optimizer states，就已經先撞牆了。這也是為什麼 32B 以上的 LoRA，硬體門檻還是很高。

以 7B 來說，LoRA r=64 大概 19-20 GB，還算舒服。14B 約 35 GB，32 GB 卡就開始緊。32B 約 76 GB，基本上就要 80 GB 等級。這些數字很適合拿來做採購判斷。

7B LoRA r=64：約 19-20 GB。
14B LoRA r=64：約 35 GB，32 GB 卡偏緊。
32B LoRA r=64：約 76 GB，接近 80 GB 門檻。
70B LoRA r=64：約 159 GB，至少要 2x H100 SXM5。

這裡還有一個重點。LoRA 和 QLoRA 的 optimizer memory 很接近。因為兩者訓練的 adapter 差不多大。真正拉開差距的是 base model storage。

QLoRA 才是 70B 的現實解

QLoRA 的思路很直接。把 frozen base model 壓成 4-bit NF4，adapter 還是用 BF16。這樣一來，70B 的 base 大概 35 GB，adapter 與 gradients 各約 1.5 GB，optimizer state 約 5.6 GB，activations 約 8 GB，總共約 52 GB。

這個數字很重要，因為它能塞進單張 H100 80GB。跟 full fine-tuning 的 860 GB 比，差距大到像不同物種。你會發現，QLoRA 不是只是省一點，而是直接讓 70B 變成可操作。

Spheron 也提到品質落差。QLoRA 通常比 full fine-tuning 低 1-3%，比標準 LoRA 低 0.5-1%。老實說，這個 trade-off 很常是值得的。尤其當你的替代方案是開分散式訓練集群時。

文章還提到 Unsloth。它的 dynamic 4-bit 實作，被描述成比 8-bit 的 perplexity 差距只剩 0.02。這種細節對想把品質壓到極限的團隊很有用。

如果你想把方法選擇和成本一起看，Spheron 也連到它自己的 LLM fine-tuning guide for 2026 和 training cost calculator。這很合理，因為 VRAM 只是第一關，時間和費用才是第二關。

這張表其實是在幫你選硬體

如果把 Spheron 的表格當成決策圖，就很好讀。7B 或 8B，QLoRA 跑 32 GB GPU 很舒服。14B 還能勉強塞進 32 GB，但餘裕不大。32B 時，LoRA 幾乎就要 80 GB。70B 時，QLoRA 反而是單卡最現實的選擇。

這會直接影響採購。你本來可能想買一張 80 GB 卡就解決 70B LoRA，結果會失望。反過來，如果你接受 QLoRA，同樣一張卡就能把專案跑起來，省掉很多分散式訓練麻煩。

7B、8B：32 GB GPU 搭 QLoRA 很順。
14B：32 GB 還能做，但 LoRA 已經偏緊。
32B：LoRA 進入 80 GB 等級。
70B：QLoRA 幾乎是單卡可行的最低門檻。

還有一個常被忽略的點。最便宜的 GPU，不一定是最便宜的 run。你如果被迫上多卡 sharding，網路和維運成本常常會吃掉原本省下來的錢。

2026 年做訓練規劃，先問這個

這篇最有價值的地方，是它把模糊問題變成尺寸表。你只要知道模型大小、方法、sequence length，大致就能推回 GPU 要買到哪一級。

我的判斷很直接。2026 年，QLoRA 會繼續是 32B 和 70B 團隊的主流選擇。Full fine-tuning 會留給有大集群、也真的需要完整控制力的團隊。

如果你今年要排訓練預算，先別問「能不能跑」。先問「我真的需要 full fine-tuning 嗎」。如果答案是否，那就別硬上 860 GB 那種規格。把錢省下來買更好的資料、更多實驗，通常更划算。

講白了，這篇不是在教你怎麼玩模型，而是在提醒你別把 GPU 預算算錯。下一次開案前，先把 7B、14B、32B、70B 的 VRAM 門檻列出來，很多決策會立刻清楚很多。

// 相關文章

2026 年 LLM 微調要多少 VRAM

VRAM 為什麼會爆得這麼快

訂閱 AI 趨勢週報

Full fine-tuning 的成本真的很兇

LoRA 便宜，但不是免死金牌

QLoRA 才是 70B 的現實解

這張表其實是在幫你選硬體

2026 年做訓練規劃，先問這個

Claude Sonnet 5 上手部署与评估

Codex把聊天改成交付

Mistral OCR 4 把文件 AI 變成採購題

Cloudflare 把爬蟲變成付費入口

Visual Studio 把 Copilot 變工作流

Databricks 為模型服務加上 AI Gateway 推論表