多目标强化学习新突破！给GRPO加上运筹外挂，7B模型硬刚GPT-4

PaperWeekly 2026-02-28 13:12

文章摘要

本文介绍了Li Auto团队为ICASSP 2025提出的一种名为超体积优化的多目标强化学习新框架。研究背景是文本摘要任务需要同时优化一致性、连贯性、流畅性和相关性等多个目标，但传统方法如加权线性组合存在人工依赖和无法有效处理目标冲突的局限。研究目的是为了解决多目标优化中的不平衡问题，提出基于GRPO框架的HVO方法，通过引入超体积指标动态调整奖励，并加入长度约束机制，以引导模型逼近帕累托前沿。实验结果表明，在CNN/DailyMail和BillSum数据集上，使用Qwen 2.5-7B-Instruct基座的HVO模型在整体性能和平衡性上媲美GPT-4，且无需监督微调，生成的摘要更简洁，证明了小规模开源模型在特定任务上的潜力。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

单刊年赚超2亿！中科院不再报销Nature Communications巨额版面费

《Science》近日证实，中科院拟停止支付高昂 OA 版面费，《Nature Communications》、《Science Advances》等 30 多种期刊在列。2026 年春节前夕，有多位

20小时前

多目标强化学习新突破！给GRPO加上运筹外挂，7B模型硬刚GPT-4

弃用 SFT！Li Auto 团队发布多目标强化学习新框架，文本摘要直接媲美GPT-4。文本摘要作为自然语言处理（NLP）的核心任务，其质量评估通常需要兼顾一致性（Consistency）、连贯性（C

20小时前

V4底座浮现？DeepSeek唤醒闲置网卡，「双路径」破解长上下文I/O瓶颈

告别算力苦等 KV 缓存，DeepSeek 全面重构底层链路，令多轮推理吞吐量翻倍。随着大模型全面向 Agent 智能体演进，系统推理的瓶颈已实质性转移至 KV-Cache 的存储 I/O 环节。面对

2026-02-26

揭开具身智能黑盒！清华等团队破译隐藏动力学密码：极限环编码行为

Sapient Intelligence 与清华大学近日在 arXiv 的一项横跨两类训练方法、3 种网络架构、7 大任务的系统性研究发现：元强化学习训练出的具身智能体，会通过神经状态空间中稳定区域的

2026-02-26