感觉现在大都是在做基于规则奖励的强化学习,虽然各大基座模型的技术报告会提到一些通用奖励的构建方法但是细节也是非常缺乏的。想问问大家做垂域的强化学习且无法基于规则的情况下,大家都是怎么做的呢?偏好数据的构建、奖励模型的选择、强化学习算法的选择(ppo、grpo、rloo等)
感觉现在大都是在做基于规则奖励的强化学习,虽然各大基座模型的技术报告会提到一些通用奖励的构建方法但是细节也是非常缺乏的。想问问大家做垂域的强化学习且无法基于规则的情况下,大家都是怎么做的呢?偏好数据的构建、奖励模型的选择、强化学习算法的选择(ppo、grpo、rloo等)