搜索

+

106

-

为啥先要SFT再强化学习？

人工智能

为啥先要SFT再强化学习？

网友回复

+

11

-

先做监督微调（SFT），是让大模型学会“听懂人话”和基本任务，比如按指令回答、格式正确等。这一步靠的是人工标注的高质量问答对，相当于给模型打基础。如果跳过SF...

点击查看剩余70%

我知道答案，我要回答

我有问题

最新提问