+
50
-

llama3如何自己训练模型?

llama3如何自己训练模型?


网友回复

+
0
-

你说的微调模型。

我们可以使用ORPO技术对新的Llama 3 8B模型进行了微调。

ORPO技术的关键在于,它通过修改标准语言模型的目标函数,结合负对数似然损失和赔率比(Odds Ratio, OR)项,弱化了被拒绝响应的惩罚,同时强化了偏好响应的奖励,从而使模型在学习目标任务的同时,更好地与人类偏好对齐。

800_auto

完整的步骤可参考这个:https://huggingface.co/blog/mlabonne/orpo-llama-3

+
0
-

还可以使用 PyTorch FSDP 和 Q-Lora 有效地微调 Llama 3。

参考:https://www.philschmid.de/fsdp-qlora-llama3

+
0
-

可以使用LLaMA-Factory进行模型微调:

https://github.com/hiyouga/LLaMA-Factory/

我知道答案,我要回答