挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器学习算法与自然语言处理
2026-01-12 07:23
文章摘要
本文探讨了在多奖励强化学习优化中,传统GRPO方法存在的局限性,并提出了一种新的策略优化方法——组奖励解耦归一化策略优化(GDPO)。背景方面,随着语言模型能力的提升,用户期望模型不仅回答正确,还需符合多样化人类偏好,因此强化学习训练开始引入多种奖励信号。研究目的在于解决GRPO在多奖励优化中将不同奖励组合归一化为相同优势值的问题,这削弱了训练信号并降低奖励水平。GDPO通过对各个奖励信号分别进行归一化,避免了不同奖励之间的混合“抹平”,更真实地保留它们的相对差异,从而提升多奖励优化的准确性和训练稳定性。结论显示,在工具调用、数学推理和代码推理等任务上,GDPO均稳定优于GRPO,验证了其有效性和良好泛化能力,同时显著改善了训练收敛性和下游任务表现。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。