RL之后,大模型为什么更容易「越训越单一」?面对五花八门的改进思路,也许答案并不复杂:先试着改一改KL项。 近年来,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, ...