强化学习远不是最优，CMU提出最大似然强化学习

数据派THU 2026-02-14 17:00

文章摘要

本文背景在于大模型时代强化学习被广泛用作提升模型性能的“最后一公里”标准配置，但其优化目标与直觉上期望的最大化正确输出概率存在偏差。研究目的是针对传统强化学习仅优化最大似然目标一阶近似的问题，提出最大似然强化学习（MaxRL）框架，通过一族以计算量为索引的目标函数逐步逼近真正的最大似然优化。结论显示，MaxRL在多个任务和模型规模上均能更高效地提升性能，其优化目标可随计算资源增加而改善，在训练和测试阶段均展现出优于现有方法的计算效率与性能提升。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

强化学习远不是最优，CMU提出最大似然强化学习

来源：机器学习本文约3000字，建议阅读5分钟数学，概率，很神奇吧。在大模型时代，从代码生成到数学推理，再到自主规划的 Agent 系统，强化学习几乎成了「最后一公里」的标准配置。直觉上，开发者真正想

21小时前

我的AI研究这十一年：从零论文到英伟达

来源：Datawhale本文约7000字，建议阅读19分钟本文记录了 Zhaocheng Zhu 从 2015 年开启AI科研之路到 2026 年正式入职英伟达的完整历程。文章按时间线复盘了作者从本科

21小时前

LeCun团队连发三文：从稀疏表征到梯度规划，世界模型技术栈再进阶

本文约3000字，建议阅读5分钟针对世界模型落地难题，LeCun 团队连发三文，给出从算法到工程的全栈最优解。近期，Yann LeCun 团队连发三文，重点攻关非生成式世界模型（World Model

2026-02-13

来了，DeepSeek悄悄上新模型！

来源：Datawhale本文约1000字，建议阅读5分钟DeepSeek 悄悄上线最新模型，是V4？新版本有什么不同？一、超长上下文新版本支持处理更长的文本输入，达到了 1M Token（百万级别）—

2026-02-13