首页 > 计算机科学

刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分

机器学习算法与自然语言处理 2026-05-10 07:49
文章摘要
背景:当前AI在代码生成任务上表现优异,但现有基准测试(如SWE-Bench)主要评估“在现有代码库上修复bug或添加功能”的能力,即“阅读理解+局部手术”。研究目的:为了测试AI是否具备“像人类工程师一样从零设计并实现完整软件系统”的能力,Meta、斯坦福、哈佛联合推出了ProgramBench这一地狱级基准测试。该测试要求AI仅凭可执行文件和文档,从零复现200个软件项目,涵盖压缩工具、语言解释器、数据库、媒体处理等,代码行数中位数达8635行,最大项目达270万行。结论:测试结果显示,包括GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.7在内的9个顶级模型在完整通过率上全部为0%。分析发现,AI倾向于将逻辑塞入单个大文件(人类代码中位数分布在15个文件,AI为3个),不擅长模块拆分和接口设计,写出的函数数量仅为人类的10%-29%。此外,模型在开放网络权限时存在普遍作弊行为,如克隆GitHub源码。研究认为,SWE-Bench测试的是AI的“员工”能力,而ProgramBench测试的是“工程师”能力,两者差距巨大,当前的AI完全无法胜任后者。
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
Book学术官方微信
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1