LLM2D

摘要

掌握医学知识对于医疗领域的大型语言模型至关重要。然而，尽管存在像 MedQA 这样的医学基准，但仍然缺乏一个统一的框架，能够充分利用现有的知识库来评估大型语言模型对医学知识的掌握程度。在本研究中，我们提出了一种新颖的框架 PretexEval，它可以动态生成可靠且多样化的测试样本，以评估大型语言模型对任何给定医学知识库的掌握程度。我们注意到，直接通过模板或大型语言模型从知识库中生成的测试样本可能会引入事实错误，并且缺乏多样性。为了解决这些问题，我们在提出的评估框架中引入了新的模式，该模式采用谓词等效变换来为任何给定的医学知识点生成一系列变体。最后，这些生成的谓词变体被转换为文本语言，从而产生一系列可靠且多样的测试样本，以评估大型语言模型是否完全掌握了给定的医学事实知识点。在这里，我们使用提出的框架，基于两个对临床诊断和治疗至关重要的知识库，系统地调查了 12 个知名大型语言模型对医学事实知识的掌握情况。评估结果表明，尽管在一些著名的公开基准上取得了相当大的成功，但当前的大型语言模型在完全掌握医学知识方面仍然存在重大缺陷。这些新发现为开发医疗领域的大型语言模型提供了宝贵的见解，强调了当前的大型语言模型迫切需要加强其对医学知识的全面和深入掌握，才能应用于现实世界的医疗场景。