给你一个不用算公式、一看就会、实战够用的显存估算方法,专门针对大模型 LoRA / 全量微调,简单粗暴但非常准。
一、记住一条核心公式
微调显存 ≈ 模型权重显存 × 系数系数看你用什么微调方式:
1)LoRA 微调(最常用)
系数:1.2~1.5 倍
公式:
显存 ≈ 模型大小 × 1.3
例子:
7B 模型 ≈ 9GB 显存
13B 模型 ≈ 17GB 显存
34B 模型 ≈ 44GB 显存
实际跑起来一般 7B=10G 左右、13B=18G 左右
2)全参数微调 Full Fine-tune
系数:6~8 倍
公式:
显存 ≈ 模型大小 × 7
例子:
7B ≈ 49GB
13B ≈ 91GB
3)QLoRA(4bit量化)
系数:0.4~0.6 倍
显存 ≈ 模型大小 × 0.5
7B ≈ 3.5GB
13B ≈ 6.5GB
--- 水平线 ---
二、更细一点的实战估算(最实用)
模型大小(FP16)
1B ≈ 2GB
7B ≈ 14GB
13B ≈ 26GB
34B ≈ 68GB
70B ≈ 140GB
加上优化器 & 梯度
LoRA:几乎不占,只多一点点
全量:优化器占 2 倍权重,梯度占 1 倍权重→ 总共 1+2+1 = 4 倍再加上激活、Batch → 6~8 倍
Batch Size 影响
BS 每翻一倍,显存 +20%~40%
微调一般 BS=2/4/8 就够,别太大
三、最简单直接的记忆版(你直接背这个)
7B LoRA:10GB 显存
13B LoRA:18GB 显存
34B LoRA:40GB+ 显存
7B QLoRA:4GB 显存
13B QLoRA:7GB 显存
7B 全量微调:50GB+ 显存
四、你告诉我这3个信息,我能直接给你精确显存
模型大小:7B/13B/34B/70B?
微调方式:LoRA / QLoRA / 全量?
精度:FP16 / NF4 / 4bit?
网友回复


