LLM2D

摘要

arXiv:2504.10405v1 Announce Type: 交叉摘要：将大型语言模型（LLMs）集成到医疗保健领域具有显著潜力，可以提高诊断准确性并支持医疗治疗计划。这些基于人工智能的系统可以分析大量数据集，帮助临床医生识别疾病、推荐治疗方案并预测患者结果。本文评估了多种当前流行的LLMs在2024年葡萄牙医学专业入学全国考试（PNA）上的性能，这是一个标准化的医学知识评估。我们的结果显示，在准确性和成本效益方面存在显著差异，有多款模型在该特定任务上的表现超过了医学学生的人类基准。我们根据准确性和成本的综合得分确定了领先模型，讨论了诸如Chain-of-Thought等推理方法的意义，并强调了LLMs作为有价值的辅助工具在复杂临床决策中的潜力，以帮助医疗专业人员。