摘要
arXiv:2501.18362v2 通知类型: 替换
摘要: 我们引入了MedXpertQA,这是一个具有挑战性和全面性的基准,用于评估专家级医学知识和高级推理能力。MedXpertQA 包括 4,460 个问题,涵盖了 17 个专科和 11 个身体系统。它包含两个子集:Text 用于文本评估,MM 用于多模态评估。值得注意的是,MM 引入了包含多样化的图像和丰富临床信息(包括病历和检查结果)的专家级考试问题,这使其不同于传统的简单从图像描述生成的问答对的医学多模态基准。MedXpertQA 通过严格的筛选和增强来解决现有基准(如MedQA)难度不足的问题,并纳入了专科考试题目,以提高临床相关性和完整性。我们进行了数据合成以减轻数据泄露风险,并进行了多轮专家审核以确保准确性和可靠性。我们在MedXpertQA 上评估了 16 个领先的模型。此外,医学与现实世界的决策紧密相连,为评估超越数学和代码的推理能力提供了丰富和代表性的环境。为此,我们开发了一个以推理为导向的子集,以促进 o1 类模型的评估。