摘要
arXiv:2504.11186v1 宣告类型: 交叉
摘要: 最近在逻辑推理方面取得进展的大型语言模型(LLMs)标志着从通用LLMs向针对复杂决策设计的模型的转变,这是医学领域的一个关键方面。然而,它们在眼科学等专门领域的表现尚未得到充分探索。本研究全面评估并比较了四种新开发的逻辑推理导向的LLMs的准确性和推理能力,具体包括DeepSeek-R1、OpenAI o1、o3-mini和Gemini 2.0 Flash-Thinking。每种模型使用MedMCQA数据集中的5,888个多项选择眼科学考试问题进行了零样本评估。定量评估包括准确率、宏F1和五个文本生成指标(ROUGE-L、METEOR、BERTScore、BARTScore和AlignScore),并与真实推理进行比较。记录了100个随机选择的问题的平均推理时间。此外,两位认证的眼科专家对其对鉴别诊断问题的回答的清晰性、完整性和推理结构进行了定性评估。O3-mini (0.902) 和 DeepSeek-R1 (0.888) 达到了最高的准确率,O3-mini 在宏F1 (0.900) 上领先。模型在文本生成指标上的表现各异:O3-mini 在 ROUGE-L (0.151) 上表现出色,o1 在 METEOR (0.232) 上表现出色,DeepSeek-R1 和 O3-mini 在 BERTScore (0.673) 上并列领先,DeepSeek-R1 (-4.105) 和 Gemini 2.0 Flash-Thinking (-4.127) 在 BARTScore 上表现最佳,而 O3-mini (0.181) 和 o1 (0.176) 在 AlignScore 上领先。这些模型的推理时间有所不同,DeepSeek-R1 最慢(40.4 秒),Gemini 2.0 Flash-Thinking 最快(6.7 秒)。定性评估表明,DeepSeek-R1 和 Gemini 2.0 Flash-Thinking 倾向于提供详细的和全面的中间推理,而 o1 和 O3-mini 则展示了简洁和总结化的理由。