摘要
arXiv:2504.18919v1 宣告类型:交叉
摘要:全球医疗提供者正在探索使用大规模语言模型(LLMs)为公众提供医疗建议。LLMs现在在医学执照考试中的得分几乎接近完美,但这并不一定意味着它们在实际应用中也能准确表现。我们进行了一项控制研究,有1,298名参与者参与,在十个医疗场景中测试LLMs是否能帮助公众成员识别潜在的疾病并选择适当的行动(处理方式)。参与者被随机分配使用LLM(GPT-4o、Llama 3、Command R+)或他们选择的其他来源(对照组)。单独测试时,LLM在场景中表现准确,正确识别疾病的比例为94.9%,平均选择处理方式的比例为56.3%。然而,使用相同LLM的参与者仅在少于34.5%的情况下正确识别了相关疾病,在少于44.2%的情况下选择了处理方式,这两个比例均未超过对照组。我们发现,用户互动是阻碍LLMs在医疗建议应用中的部署的挑战。用于医学知识的标准基准和模拟患者互动无法预测我们发现的人类参与者所遇到的失败。展望未来,我们建议在公共医疗部署之前进行系统的人类用户测试以评估交互能力。