走出MMLU的高分幻觉:AI Agent的「斯坦利时刻」与职场生存法则
数据派THU
2026-02-18 17:00
文章摘要
背景:当前AI Agent在MMLU等基准测试中得分很高,但在真实业务环境中表现不佳,存在“执行鸿沟”。研究目的:为了评估AI Agent在动态、非结构化职场环境中的实际能力,研究团队开发了Trainee-Bench基准测试,模拟新员工入职场景,考察Agent的探索、调度和学习能力。结论:测试显示,即使顶尖模型在Trainee-Bench上成功率很低(最高35%),多任务调度和持续学习能力薄弱,表明AI Agent离独立上岗还有距离;但人类少量指导能大幅提升性能,提示未来应注重增强Agent的自主学习和环境适应能力。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。