logo

已经有SFT、Prompt tuning、LoRA了,为什么还要有奖励模型训练和强化学习训练?

这几个方式会有什么差别么?实在是训练方法太多,不知道如何选择了
评论
用户头像