4月15日,美国哈佛医学院研究团队对20余种前沿AI大型语言模型(LLM)的临床诊断能力进行了系统评估。测试对象涵盖ChatGPT、DeepSeek、Gemini及Claude等主流模型。研究发现,在仅依据患者初步症状和体征进行”鉴别诊断”(即识别潜在疾病)时,AI系统的错误率高达80%。进一步分析显示,当患者补充更多检测数据后,AI模型可将”最终诊断”的失误概率控制在约40%。研究人员特别指出:当前人工智能技术尚未具备在无医疗人员介入的情况下独立完成患者诊疗决策的能力。(第一财经)
4月15日,美国哈佛医学院研究团队对20余种前沿AI大型语言模型(LLM)的临床诊断能力进行了系统评估。测试对象涵盖ChatGPT、DeepSeek、Gemini及Claude等主流模型。研究发现,在仅依据患者初步症状和体征进行”鉴别诊断”(即识别潜在疾病)时,AI系统的错误率高达80%。进一步分析显示,当患者补充更多检测数据后,AI模型可将”最终诊断”的失误概率控制在约40%。研究人员特别指出:当前人工智能技术尚未具备在无医疗人员介入的情况下独立完成患者诊疗决策的能力。(第一财经)
评论前必须登录!
登录微信扫码分享







评论 ( 0 )