LLM2D

摘要

arXiv:2504.11186v1 宣告类型: 交叉摘要: 最近在逻辑推理方面取得进展的大型语言模型（LLMs）标志着从通用LLMs向针对复杂决策设计的模型的转变，这是医学领域的一个关键方面。然而，它们在眼科学等专门领域的表现尚未得到充分探索。本研究全面评估并比较了四种新开发的逻辑推理导向的LLMs的准确性和推理能力，具体包括DeepSeek-R1、OpenAI o1、o3-mini和Gemini 2.0 Flash-Thinking。每种模型使用MedMCQA数据集中的5,888个多项选择眼科学考试问题进行了零样本评估。定量评估包括准确率、宏F1和五个文本生成指标（ROUGE-L、METEOR、BERTScore、BARTScore和AlignScore），并与真实推理进行比较。记录了100个随机选择的问题的平均推理时间。此外，两位认证的眼科专家对其对鉴别诊断问题的回答的清晰性、完整性和推理结构进行了定性评估。O3-mini (0.902) 和 DeepSeek-R1 (0.888) 达到了最高的准确率，O3-mini 在宏F1 (0.900) 上领先。模型在文本生成指标上的表现各异：O3-mini 在 ROUGE-L (0.151) 上表现出色，o1 在 METEOR (0.232) 上表现出色，DeepSeek-R1 和 O3-mini 在 BERTScore (0.673) 上并列领先，DeepSeek-R1 (-4.105) 和 Gemini 2.0 Flash-Thinking (-4.127) 在 BARTScore 上表现最佳，而 O3-mini (0.181) 和 o1 (0.176) 在 AlignScore 上领先。这些模型的推理时间有所不同，DeepSeek-R1 最慢（40.4 秒），Gemini 2.0 Flash-Thinking 最快（6.7 秒）。定性评估表明，DeepSeek-R1 和 Gemini 2.0 Flash-Thinking 倾向于提供详细的和全面的中间推理，而 o1 和 O3-mini 则展示了简洁和总结化的理由。