摘要
arXiv:2502.01243v1 交叉公告类型:cross
摘要:大型语言模型(LLMs)在各种医疗应用中展现出了显著的潜力,眼科是一个特别关注的领域。许多眼科任务通过将LLMs集成进来取得了显著的改进。然而,在这些模型能够广泛应用于临床实践之前,评估它们的能力并识别其局限性至关重要。为了解决这一研究缺口并支持LLMs的实际应用,我们引入了OphthBench,这是一个专门设计的基准,旨在评估LLMs在中文眼科实践中的表现。该基准将典型的眼科临床流程系统地分为五个关键场景:教育、分诊、诊断、治疗和预后。对于每个场景,我们开发了多种带有不同问题类型的任务,形成了一个全面的基准,包括9个任务和591个问题。这一全面框架允许对LLMs的能力进行全面评估,并提供其在中文眼科中的实际应用洞察。通过使用这个基准,我们进行了广泛的实验,并分析了39个流行的LLMs的结果。我们的评估突显了LLMs开发与临床应用之间的当前差距,为未来的发展提供了明确的方向。通过弥合这一差距,我们旨在解锁LLMs的潜力,并在其在眼科的发展中推动更多进步。