多模态Deep Research，终于有了「可核验」的评测标准

数据派THU 2026-02-24 17:00

文章摘要

背景：随着多模态深度研究智能体的普及，现有评估方法多关注文本生成质量或短问答，难以对涉及图像证据的端到端研究过程进行可靠验证，存在“幻觉”和证据引用不实等问题。研究目的：为解决上述问题，俄亥俄州立大学与Amazon Science等机构联合推出了MMDR-Bench基准，旨在为多模态深度研究智能体建立一个过程可核验、证据可追溯、断言可对齐的硬性评估标准。结论：该基准包含140个专家任务，覆盖19个领域，并通过FLAE、TRACE和MOSAIC三段管线进行多维度评估，强调证据链的可靠性而非唯一答案。实验表明，写作能力强的模型未必证据对齐扎实，凸显了将评估重点从“能写”转向“能被查”的重要性，为智能体的可工程化迭代提供了明确信号。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

多模态Deep Research，终于有了「可核验」的评测标准

来源：机器之心本文约2200字，建议阅读6分钟俄亥俄州立大学与 Amazon Science 联合牵头，联合多家高校与机构研究者发布 MMDeepResearch-Bench（MMDR-Bench）。

22小时前

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

来源：Deephub IMBA本文约3200字，建议阅读5分钟注意力即便在窗口很大的情况下依然是稀缺资源。人们喜欢长上下文，智能体记得你的项目、你的偏好、你说话的方式，连你那些反复冒出来的琐碎任务都帮

22小时前

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则

来源：ScienceAI本文约3000字，建议阅读5分钟自主学习性将成为评估Agent的重要方略。序章：穿越数字世界的「莫哈韦沙漠」把时钟拨回 2005 年，内华达州的莫哈韦沙漠。那是美国国防部高级研

2026-02-18

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！

来源：新智元本文约7000字，建议阅读15分钟就在本月，AI 经历了质变式飞跃，已经能独立完成过去需要人类专家数小时才能搞定的复杂工作。AI 开始参与构建下一代 AI，递归自我提升的循环已经启动，智能

2026-02-18