挑战GRPO，英伟达提出GDPO，专攻多奖励优化

机器学习算法与自然语言处理 2026-01-12 07:23

文章摘要

本文探讨了在多奖励强化学习优化中，传统GRPO方法存在的局限性，并提出了一种新的策略优化方法——组奖励解耦归一化策略优化（GDPO）。背景方面，随着语言模型能力的提升，用户期望模型不仅回答正确，还需符合多样化人类偏好，因此强化学习训练开始引入多种奖励信号。研究目的在于解决GRPO在多奖励优化中将不同奖励组合归一化为相同优势值的问题，这削弱了训练信号并降低奖励水平。GDPO通过对各个奖励信号分别进行归一化，避免了不同奖励之间的混合“抹平”，更真实地保留它们的相对差异，从而提升多奖励优化的准确性和训练稳定性。结论显示，在工具调用、数学推理和代码推理等任务上，GDPO均稳定优于GRPO，验证了其有效性和良好泛化能力，同时显著改善了训练收敛性和下游任务表现。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。