首页 > 计算机科学

4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了

机器学习算法与自然语言处理 2026-04-11 00:00
文章摘要
背景:少步扩散模型在AI生图领域因推理速度快、部署成本低而成为主流,但其在复杂指令遵循、文字渲染稳定性和组合式生成能力方面存在明显短板,难以处理不可微的离散奖励信号。研究目的:香港科技大学唐靖团队等提出TDM-R1框架,旨在通过创新的强化学习方法,将不可微奖励(如用户偏好、文字正确性)融入少步扩散模型的后训练,提升模型在仅4步采样下的指令遵循和生成质量。结论:TDM-R1在GenEval基准测试中将得分从61%提升至92%,超越80步基础模型和GPT-4o,同时保持或提升图像质量,并在文字渲染(OCR准确率从55%升至95%)和可扩展性上表现优异,为少步生图的实用化提供了通用解决方案。
4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1