别再把KL散度加进loss了！Bengio团队实证：回归Reward才是无偏正解

机器学习算法与自然语言处理 2026-01-05 00:00

文章摘要

背景：在强化学习与人类反馈（RLHF）训练中，通常使用KL散度约束策略模型不偏离参考模型，但工程实现中常将KL惩罚项直接加入损失函数。研究目的：Bengio团队通过研究指出，主流实现方式（如K3估算器置于损失中）会导致梯度估计有偏，损害模型泛化能力，并探讨了修复方案。结论：将KL惩罚项移回奖励函数并使用朴素的K1估算器，能实现无偏梯度估计，在域外任务上带来约19%的性能提升，同时提高训练稳定性和模型推理能力。

别再把KL散度加进loss了！Bengio团队实证：回归Reward才是无偏正解

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。