首页 > 材料科学

GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

计算材料学 2025-12-16 22:20
文章摘要
背景:随着大语言模型在自然科学领域的应用从简单问答转向复杂推理,现有化学专用基准多关注基础能力,缺乏对深度推理的系统考察。研究目的:北京大学团队发布多模态、高难度化学推理基准SUPERChem,旨在系统评估大语言模型的化学推理能力,填补化学深度推理评估的空白。结论:评测结果显示,前沿模型如GPT-5准确率仅38.5%,与低年级本科生水平相当,且在高阶化学推理环节存在短板,为模型优化提供了方向。
GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1