摘要
在研究中,我们旨在通过一种动态评估方案来调查当前大型语言模型(LLMs)对医学事实知识的掌握情况,该方案能够为每个医学事实知识点自动生成多个测试样本。由LLMs直接生成的测试样本通常会引入事实错误,并且在知识表达方式上缺乏多样性。为了克服这些缺点,我们提出了一种新的评估方法——谓词文本双重变换(Predicate-text Dual Transformation, PretextTrans),通过将谓词变换引入动态评估方案中。具体而言,每个医学知识点首先被转换为谓词表达式;然后,通过谓词变换生成一系列变体;最后,将生成的谓词变体转换回文本表达,从而产生一系列既具有事实可靠性又具有表达多样性的测试样本。利用所提出的PretextTrans方法,我们系统地调查了12个知名LLMs对基于两个医学数据集的医学事实知识的掌握情况。比较结果显示,当前的LLMs在全面掌握医学知识方面仍存在显著不足,这可能解释了为什么尽管在公共基准上取得了相当的成绩,但LLMs在实际医疗场景中的表现仍不尽如人意。我们提出的方法为医学领域中LLMs的评估提供了一种有效的解决方案,并为开发专门针对医学的LLMs提供了宝贵的见解。