LLM2D
眼科领域下一代以推理为重点的大语言模型基准测试:针对5,888项内容的头对头评估
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items
作者: Minjie Zou, Sahana Srinivasan, Thaddaeus Wai Soon Lo, Ke Zou, Gabriel Dawei Yang, Xuguang Ai, Hyunjae Kim, Maxwell Singer, Fares Antaki, Kelvin Li, Robert Chang, Marcus Tan, David Ziyou Chen, Dianbo Liu, Qingyu Chen, Yih Chung Tham
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11186v1

摘要

arXiv:2504.11186v1 宣告类型: 交叉 摘要: 最近在逻辑推理方面取得进展的大型语言模型(LLMs)标志着从通用LLMs向针对复杂决策设计的模型的转变,这是医学领域的一个关键方面。然而,它们在眼科学等专门领域的表现尚未得到充分探索。本研究全面评估并比较了四种新开发的逻辑推理导向的LLMs的准确性和推理能力,具体包括DeepSeek-R1、OpenAI o1、o3-mini和Gemini 2.0 Flash-Thinking。每种模型使用MedMCQA数据集中的5,888个多项选择眼科学考试问题进行了零样本评估。定量评估包括准确率、宏F1和五个文本生成指标(ROUGE-L、METEOR、BERTScore、BARTScore和AlignScore),并与真实推理进行比较。记录了100个随机选择的问题的平均推理时间。此外,两位认证的眼科专家对其对鉴别诊断问题的回答的清晰性、完整性和推理结构进行了定性评估。O3-mini (0.902) 和 DeepSeek-R1 (0.888) 达到了最高的准确率,O3-mini 在宏F1 (0.900) 上领先。模型在文本生成指标上的表现各异:O3-mini 在 ROUGE-L (0.151) 上表现出色,o1 在 METEOR (0.232) 上表现出色,DeepSeek-R1 和 O3-mini 在 BERTScore (0.673) 上并列领先,DeepSeek-R1 (-4.105) 和 Gemini 2.0 Flash-Thinking (-4.127) 在 BARTScore 上表现最佳,而 O3-mini (0.181) 和 o1 (0.176) 在 AlignScore 上领先。这些模型的推理时间有所不同,DeepSeek-R1 最慢(40.4 秒),Gemini 2.0 Flash-Thinking 最快(6.7 秒)。定性评估表明,DeepSeek-R1 和 Gemini 2.0 Flash-Thinking 倾向于提供详细的和全面的中间推理,而 o1 和 O3-mini 则展示了简洁和总结化的理由。