+
76
-

为啥先要SFT再强化学习?

为啥先要SFT再强化学习?


网友回复

+
11
-

先做监督微调(SFT),是让大模型学会“听懂人话”和基本任务,比如按指令回答、格式正确等。这一步靠的是人工标注的高质量问答对,相当于给模型打基础。如果跳过SF...

点击查看剩余70%

我知道答案,我要回答