登录/注册

用户头像

已经有SFT、Prompt tuning、LoRA了，为什么还要有奖励模型训练和强化学习训练？

大模型开发/互助问答

文心大模型
SFT
P-tuning

2023.08.283904看过

这几个方式会有什么差别么？实在是训练方法太多，不知道如何选择了

评论

用户头像

相关推荐

【教程】百度智能云千帆大模型平台使用指南-V1.0版本（上）
- 百度智能云千帆社区
- 2023.11.09
- 53388
- 21
- 13
快速上手SFT（一）：识别应用场景
- 十万个为什么呢
- 2023.10.17
- 11941
- 11
- 1
千帆社区每周精选文章（2.5-2.18)
- 百度智能云千帆社区
- 2月19日
- 5983
- 1
- 0

作者头像

冰与火之歌113

相关文章

热点话题