首页 > 计算机科学

多模态Deep Research,终于有了「可核验」的评测标准

数据派THU 2026-02-24 17:00
文章摘要
背景:随着多模态深度研究智能体的普及,现有评估方法多关注文本生成质量或短问答,难以对涉及图像证据的端到端研究过程进行可靠验证,存在“幻觉”和证据引用不实等问题。研究目的:为解决上述问题,俄亥俄州立大学与Amazon Science等机构联合推出了MMDR-Bench基准,旨在为多模态深度研究智能体建立一个过程可核验、证据可追溯、断言可对齐的硬性评估标准。结论:该基准包含140个专家任务,覆盖19个领域,并通过FLAE、TRACE和MOSAIC三段管线进行多维度评估,强调证据链的可靠性而非唯一答案。实验表明,写作能力强的模型未必证据对齐扎实,凸显了将评估重点从“能写”转向“能被查”的重要性,为智能体的可工程化迭代提供了明确信号。
多模态Deep Research,终于有了「可核验」的评测标准
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
多模态Deep Research,终于有了「可核验」的评测标准
多模态Deep Research,终于有了「可核验」的评测标准
来源:机器之心本文约2200字,建议阅读6分钟俄亥俄州立大学与 Amazon Science 联合牵头,联合多家高校与机构研究者发布 MMDeepResearch-Bench(MMDR-Bench)。
22小时前
长上下文"记忆"的舒适陷阱:为什么更多记忆不等于更可靠
长上下文"记忆"的舒适陷阱:为什么更多记忆不等于更可靠
来源:Deephub IMBA本文约3200字,建议阅读5分钟注意力即便在窗口很大的情况下依然是稀缺资源。人们喜欢长上下文,智能体记得你的项目、你的偏好、你说话的方式,连你那些反复冒出来的琐碎任务都帮
22小时前
走出MMLU的高分幻觉:AI Agent的「斯坦利时刻」与职场生存法则
走出MMLU的高分幻觉:AI Agent的「斯坦利时刻」与职场生存法则
来源:ScienceAI本文约3000字,建议阅读5分钟自主学习性将成为评估Agent的重要方略。序章:穿越数字世界的「莫哈韦沙漠」把时钟拨回 2005 年,内华达州的莫哈韦沙漠。那是美国国防部高级研
2026-02-18
阅读7千万文章硅谷爆火:AI奇点已至,抛弃人类自我进化!
阅读7千万文章硅谷爆火:AI奇点已至,抛弃人类自我进化!
来源:新智元本文约7000字,建议阅读15分钟就在本月,AI 经历了质变式飞跃,已经能独立完成过去需要人类专家数小时才能搞定的复杂工作。AI 开始参与构建下一代 AI,递归自我提升的循环已经启动,智能
2026-02-18
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1