LLM2D

摘要

arXiv:2502.01243v1 交叉公告类型：cross 摘要：大型语言模型（LLMs）在各种医疗应用中展现出了显著的潜力，眼科是一个特别关注的领域。许多眼科任务通过将LLMs集成进来取得了显著的改进。然而，在这些模型能够广泛应用于临床实践之前，评估它们的能力并识别其局限性至关重要。为了解决这一研究缺口并支持LLMs的实际应用，我们引入了OphthBench，这是一个专门设计的基准，旨在评估LLMs在中文眼科实践中的表现。该基准将典型的眼科临床流程系统地分为五个关键场景：教育、分诊、诊断、治疗和预后。对于每个场景，我们开发了多种带有不同问题类型的任务，形成了一个全面的基准，包括9个任务和591个问题。这一全面框架允许对LLMs的能力进行全面评估，并提供其在中文眼科中的实际应用洞察。通过使用这个基准，我们进行了广泛的实验，并分析了39个流行的LLMs的结果。我们的评估突显了LLMs开发与临床应用之间的当前差距，为未来的发展提供了明确的方向。通过弥合这一差距，我们旨在解锁LLMs的潜力，并在其在眼科的发展中推动更多进步。