NIH的研究结果揭示了将AI融入医疗决策的风险和益处

发布时间：2024-10-01 11:01:48编辑：可爱的眼神来源：

美国国立卫生研究院(NIH) 的研究人员发现，人工智能 (AI) 模型能够高精度地解答医学问答题(旨在测试医疗专业人员根据临床图像和简短文本摘要诊断患者的能力)。然而，医生评分员发现，AI 模型在描述图像和解释其决策如何得出正确答案时犯了错误。该研究结果揭示了 AI 在临床环境中的潜力，发表在npj Digital Medicine上。该研究由美国国立卫生研究院国家医学图书馆 (NLM) 和纽约市威尔康奈尔医学院的研究人员领导。

“将人工智能融入医疗保健领域具有巨大的前景，它可以帮助医疗专业人员更快地诊断患者，使他们能够尽早开始治疗，”NLM 代理主任 Stephen Sherry 博士表示。“然而，正如这项研究表明的那样，人工智能还不够先进，无法取代人类的经验，而经验对于准确诊断至关重要。”

和人类医生回答了《新英格兰医学杂志》(NEJM)图像挑战赛的问题。该挑战赛是一项在线测验，提供真实的临床图像和简短的文字描述，其中包括有关患者症状和表现的详细信息，然后要求用户从多项选择题答案中选择正确的诊断。

研究人员要求回答 207 个图像挑战问题，并提供书面理由来证明每个答案的合理性。提示规定，理由应包括图像描述、相关医学知识摘要，并提供模型如何选择答案的分步推理。

研究招募了来自不同机构的 9 名医生，每人都有不同的医学专业，他们首先在“闭卷”环境下回答被分配的问题(不参考任何外部材料，如在线资源)，然后在“开卷”环境下回答(使用外部资源)。研究人员随后向医生提供正确答案，以及 AI 模型的答案和相应的理由。最后，医生被要求对 AI 模型描述图像、总结相关医学知识和提供分步推理的能力进行评分。

研究人员发现，AI 模型和医生在选择正确诊断方面得分很高。有趣的是，在闭卷式环境中，AI 模型比医生更经常选择正确的诊断，而使用开卷式工具的医生表现优于 AI 模型，尤其是在回答最难的问题时。

重要的是，根据医生的评估，AI 模型在描述医学图像和解释诊断背后的原因时经常会犯错误——即使在做出正确最终选择的情况下也是如此。在一个例子中，AI 模型被提供了一张患者手臂上有两处病变的照片。医生很容易识别出这两种病变是由同一种疾病引起的。然而，由于病变呈现的角度不同——导致颜色和形状不同——AI 模型未能认识到这两种病变可能与同一种诊断有关。

研究人员认为，这些发现强调了在将多模式人工智能技术引入临床环境之前进一步评估它的重要性。

“这项技术有可能帮助临床医生通过数据驱动的洞察力增强他们的能力，从而可能改善临床决策，”NLM 高级研究员兼研究通讯作者 Zhiyong Lu 博士说。 “了解这项技术的风险和局限性对于发挥其在医学领域的潜力至关重要。”

这项研究使用了一种名为 GPT-4V(带视觉的生成式预训练 Transformer 4)的 AI 模型，这是一种“多模态 AI 模型”，可以处理多种类型数据的组合，包括文本和图像。研究人员指出，虽然这是一项小型研究，但它揭示了多模态 AI 在帮助医生进行医疗决策方面的潜力。需要进行更多研究来了解此类模型与医生诊断患者的能力相比如何。

这项研究由来自美国国立卫生研究院国家眼科研究所和美国国立卫生研究院临床中心、匹兹堡大学、德克萨斯大学西南医学中心(达拉斯)、纽约大学格罗斯曼医学院(纽约市)、哈佛医学院和麻省总医院(波士顿)、凯斯西储大学医学院(克利夫兰)、加州大学圣地亚哥分校(拉霍亚)和阿肯色大学(小石城)的合作者共同撰写。

上一篇：正念和冥想作为PMDD的治疗方法情绪平衡技巧

下一篇：经过多年研发的模块化中微子探测器