奖励模型那么多种,大家平时训练都在用什么呀
做了几个实验,这个曲线看起来怎么样
太强了,稳步上升,我现在还没训过grpo
笑死,还没验过模型效果,缺GPU资源。不知道是不是reward hacking