4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了
机器学习算法与自然语言处理
2026-04-11 00:00
文章摘要
背景:少步扩散模型在AI生图领域因推理速度快、部署成本低而成为主流,但其在复杂指令遵循、文字渲染稳定性和组合式生成能力方面存在明显短板,难以处理不可微的离散奖励信号。研究目的:香港科技大学唐靖团队等提出TDM-R1框架,旨在通过创新的强化学习方法,将不可微奖励(如用户偏好、文字正确性)融入少步扩散模型的后训练,提升模型在仅4步采样下的指令遵循和生成质量。结论:TDM-R1在GenEval基准测试中将得分从61%提升至92%,超越80步基础模型和GPT-4o,同时保持或提升图像质量,并在文字渲染(OCR准确率从55%升至95%)和可扩展性上表现优异,为少步生图的实用化提供了通用解决方案。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。