LLM内部竟藏着众多策略模型?自所&腾讯团队首次揭示大模型RL新机制
数据派THU
2026-01-09 17:00
文章摘要
背景:当前大模型与强化学习结合的研究中,通常将大语言模型视为单一整体策略进行优化,忽略了其内部复杂的层级演化机制,模型的黑盒特性阻碍了对内部工作机理的理解。研究目的:中国科学院自动化研究所与腾讯AI Lab的研究团队从可解释性分析出发,揭示LLM内部包含多个可采样的内部策略,并发现不同模型家族在推理过程中呈现不同的推理熵模式,进而提出自底向上的策略优化算法,旨在通过优化底层内部策略重构模型的基础推理能力。结论:提出的Bottom-up Policy Optimization算法在复杂数学推理任务上显著优于传统GRPO和PPO等方法,性能提升明显,同时为理解大模型内部机制和强化学习算法设计提供了新视角。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。