Science | AI 诊断能力新高度:最新大模型在多方面超越人类医生
iNatrue
2026-05-05 12:00
文章摘要
本研究系统评估了OpenAI最新模型o1-preview在多项核心医学推理任务上的表现。背景方面,复杂临床诊断推理案例自65年前被引入作为评估专家医疗计算系统的金标准,一直沿用至今。研究目的是验证大型语言模型在临床诊断这一高风险领域的决策能力是否超越人类医生。结论表明,o1-preview在《新英格兰医学杂志》临床病理会议案例中,将正确诊断纳入鉴别诊断列表的比例达78.3%,首诊准确率52%;在“治疗者”课程案例中,表现显著优于GPT-4、主治医生和住院医生;在“灰质”测试中,得分89%远超人类医生组(34-41%)和GPT-4(42%)。真实急诊场景验证显示,在急诊初步分诊环节,o1准确诊断率67.1%,高于人类的55.3%和50.0%。研究强调,尽管AI在文本推理方面已超越部分临床医生,但临床决策还需视觉、听觉等多模态信息,未来应通过前瞻性临床试验探索人机协作模式,以提升医疗安全、效率和可及性。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。