搜索

llama3如何自己训练模型？

人工智能

llama3如何自己训练模型？

网友回复

你说的微调模型。

我们可以使用ORPO技术对新的Llama 3 8B模型进行了微调。

ORPO技术的关键在于，它通过修改标准语言模型的目标函数，结合负对数似然损失和赔率比（Odds Ratio, OR）项，弱化了被拒绝响应的惩罚，同时强化了偏好响应的奖励，从而使模型在学习目标任务的同时，更好地与人类偏好对齐。

800_auto

完整的步骤可参考这个：https://huggingface.co/blog/mlabonne/orpo-llama-3

还可以使用 PyTorch FSDP 和 Q-Lora 有效地微调 Llama 3。

参考：https://www.philschmid.de/fsdp-qlora-llama3

可以使用LLaMA-Factory进行模型微调：

https://github.com/hiyouga/LLaMA-Factory/

我知道答案，我要回答

我有问题

私活外包

最新提问