大家奖励模型都在用什么

奖励模型那么多种,大家平时训练都在用什么呀

做了几个实验,这个曲线看起来怎么样

太强了,稳步上升,我现在还没训过grpo :joy:

笑死,还没验过模型效果,缺GPU资源。不知道是不是reward hacking :rofl: :rofl: :rofl: