回答-BFW问答

先做监督微调（SFT），是让大模型学会“听懂人话”和基本任务，比如按指令回答、格式正确等。这一步靠的是人工标注的高质量问答对，相当于给模型打基础。如果跳过SFT直接强化学习（RL），模型可能连指令都理解不了，奖励信号就无法有效引导它学习。

在有了SFT的基础后，再用强化学习（如PPO）进一步优化，目标是让回答更符合人类偏好（如有帮助、无害、流畅等）。这时模型已经具备基本能力，RL才能高效地“精修”行为，而不是从零摸索。

简单说：SFT教模型“会做事”，RL教它“做得好”。