GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem
计算材料学
2025-12-16 22:20
文章摘要
背景:随着大语言模型在自然科学领域的应用从简单问答转向复杂推理,现有化学专用基准多关注基础能力,缺乏对深度推理的系统考察。研究目的:北京大学团队发布多模态、高难度化学推理基准SUPERChem,旨在系统评估大语言模型的化学推理能力,填补化学深度推理评估的空白。结论:评测结果显示,前沿模型如GPT-5准确率仅38.5%,与低年级本科生水平相当,且在高阶化学推理环节存在短板,为模型优化提供了方向。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。