LLM2D

摘要

在研究中，我们旨在通过一种动态评估方案来调查当前大型语言模型（LLMs）对医学事实知识的掌握情况，该方案能够为每个医学事实知识点自动生成多个测试样本。由LLMs直接生成的测试样本通常会引入事实错误，并且在知识表达方式上缺乏多样性。为了克服这些缺点，我们提出了一种新的评估方法——谓词文本双重变换（Predicate-text Dual Transformation, PretextTrans），通过将谓词变换引入动态评估方案中。具体而言，每个医学知识点首先被转换为谓词表达式；然后，通过谓词变换生成一系列变体；最后，将生成的谓词变体转换回文本表达，从而产生一系列既具有事实可靠性又具有表达多样性的测试样本。利用所提出的PretextTrans方法，我们系统地调查了12个知名LLMs对基于两个医学数据集的医学事实知识的掌握情况。比较结果显示，当前的LLMs在全面掌握医学知识方面仍存在显著不足，这可能解释了为什么尽管在公共基准上取得了相当的成绩，但LLMs在实际医疗场景中的表现仍不尽如人意。我们提出的方法为医学领域中LLMs的评估提供了一种有效的解决方案，并为开发专门针对医学的LLMs提供了宝贵的见解。