摘要
大型语言模型(LLM)可以存储海量知识,但它们获取新知识的潜力尚不清楚。我们提出了一种新颖的评估框架来评估这种能力。该框架提示LLM生成关于介绍科学知识的陈述的问题,模拟一个人在第一次面对该陈述时的好奇心。我们对生成问题的质量进行评分,从而评估LLM的知识获取潜力。我们应用受控消融研究来验证我们的评分程序。此外,我们创建了一个合成数据集,其中包含物理、化学和数学领域中1101个难度级别不同的陈述、300个常识陈述和567个错误陈述。进行了人工评估以验证我们的模型评估,在所考虑的所有三个指标上实现了约0.7的加权Cohen's kappa。我们发现,虽然GPT-4和Mistral 8x7b等大型模型擅长生成连贯且相关的问题,但较小的Phi-2模型同样或更有效。这表明,模型的知识获取潜力并不仅仅取决于其大小。所提出的框架量化了一个关键的模型能力,该能力通常被忽视,并为开发更具知识的AI系统开辟了研究机会。