首页 > 计算机科学

AAAI 2026 | “做题家” Code LLM,像人类一样按题型高效刷题

数据派THU 2026-01-29 17:00
文章摘要
背景:在AI辅助编程技术快速发展的背景下,大语言模型生成的代码仍存在运行时错误,增加了调试成本。现有基于偏好优化的方法多依赖二元反馈信号,难以定位错误原因,且忽视了模型能力的动态变化。研究目的:针对上述缺口,提出自适应渐进式偏好优化方法(AP2O)并构建AP2O-Coder框架,旨在通过模仿人类“按题型高效刷题”的学习模式,系统化提升模型代码纠错能力。结论:AP2O-Coder框架通过“考试-分析-纠错-小测”流程,在多款主流开源模型上实现了最高3%的pass@k性能提升,同时显著降低了训练数据需求量,并展现出良好的错误抑制效果、泛化能力及跨模型类型的适配性。
AAAI 2026 | “做题家” Code LLM,像人类一样按题型高效刷题
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
剑桥与北航等设计可穿戴设备+LLM,融合肌肉振动、脉搏与大模型推理的无声语音系统
剑桥与北航等设计可穿戴设备+LLM,融合肌肉振动、脉搏与大模型推理的无声语音系统
来源:ScienceAI本文约1500字,建议阅读5分钟团队表示,他们希望自己的成果能协助有关病患改善他们的生活质量。智能可穿戴设备的研发与设计,往往会伴随着人文关怀的色彩。这些功能各异的系统在各自的
14小时前
治理体系 + 数据上新!UltraData 数据分级治理体系发布,以科学治理赋能 AGI
治理体系 + 数据上新!UltraData 数据分级治理体系发布,以科学治理赋能 AGI
来源:OpenBMB开源社区本文约4500字,建议阅读10分钟大模型数据治理新范式纵观人工智能的发展历程,本质上是一部“数据驱动策略与利用方式”的演进史。每一次范式跃迁,既延伸和重构了前一阶段的数据驱
14小时前
神经网络可重编程性:重塑大模型使用的核心能力
神经网络可重编程性:重塑大模型使用的核心能力
来源:人工智能前沿讲习本文约4500字,建议阅读9分钟本文介绍了神经网络可重编程性统一框架,梳理大模型适配方法及优势。从模型重编程(Model Reprogramming),到参数高效微调(PEFT)
2026-02-09
DeepSeek 双创新,OCR2 会 “读” 文档,mHC 改写残差十年规则
DeepSeek 双创新,OCR2 会 “读” 文档,mHC 改写残差十年规则
本文约2600字,建议阅读5分钟本文介绍了 DeepSeek OCR2 模型与 mHC 新思路的核心技术创新。DeepSeek一直带有原创性,总是会给大家一些新的启发和思路。昨天DeepSeek发布了
2026-02-08
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1