聊聊On-PolicyDistillation与那该死的ReverseKL

机器学习算法与自然语言处理 2026-01-27 22:18

文章摘要

本文探讨了在资源有限条件下，如何通过在线策略蒸馏将大模型能力迁移至小模型。背景上，传统有监督微调存在暴露偏差问题，学生模型难以应对推理阶段的错误状态。研究目的旨在分析在线策略蒸馏中不同分布差异度量方法的作用机制，包括前向KL散度、反向KL散度和JSD散度。结论指出，前向KL过于严厉易导致输出模糊，反向KL虽能因材施教但可能引发模式坍塌，而JSD通过混合分布平衡师生要求，提供稳定训练并避免梯度爆炸，为高效模型蒸馏提供了可行路径。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。