+
31
-

回答

给你一个不用算公式、一看就会、实战够用的显存估算方法,专门针对大模型 LoRA / 全量微调,简单粗暴但非常准。

一、记住一条核心公式

微调显存 ≈ 模型权重显存 × 系数系数看你用什么微调方式:

1)LoRA 微调(最常用)

系数:1.2~1.5 倍

公式:

显存 ≈ 模型大小 × 1.3

例子:

7B 模型 ≈ 9GB 显存

13B 模型 ≈ 17GB 显存

34B 模型 ≈ 44GB 显存

实际跑起来一般 7B=10G 左右、13B=18G 左右

2)全参数微调 Full Fine-tune

系数:6~8 倍

公式:

显存 ≈ 模型大小 × 7

例子:

7B ≈ 49GB

13B ≈ 91GB

3)QLoRA(4bit量化)

系数:0.4~0.6 倍

显存 ≈ 模型大小 × 0.5

7B ≈ 3.5GB

13B ≈ 6.5GB

--- 水平线 ---

二、更细一点的实战估算(最实用)

模型大小(FP16)

1B ≈ 2GB

7B ≈ 14GB

13B ≈ 26GB

34B ≈ 68GB

70B ≈ 140GB

加上优化器 & 梯度

LoRA:几乎不占,只多一点点

全量:优化器占 2 倍权重,梯度占 1 倍权重→ 总共 1+2+1 = 4 倍再加上激活、Batch → 6~8 倍

Batch Size 影响

BS 每翻一倍,显存 +20%~40%

微调一般 BS=2/4/8 就够,别太大

三、最简单直接的记忆版(你直接背这个)

7B LoRA10GB 显存

13B LoRA18GB 显存

34B LoRA40GB+ 显存

7B QLoRA4GB 显存

13B QLoRA7GB 显存

7B 全量微调50GB+ 显存

四、你告诉我这3个信息,我能直接给你精确显存

模型大小:7B/13B/34B/70B?

微调方式:LoRA / QLoRA / 全量?

精度:FP16 / NF4 / 4bit?

网友回复

我知道答案,我要回答