LLM2D

摘要

大型语言模型（LLM）可以存储海量知识，但它们获取新知识的潜力尚不清楚。我们提出了一种新颖的评估框架来评估这种能力。该框架提示LLM生成关于介绍科学知识的陈述的问题，模拟一个人在第一次面对该陈述时的好奇心。我们对生成问题的质量进行评分，从而评估LLM的知识获取潜力。我们应用受控消融研究来验证我们的评分程序。此外，我们创建了一个合成数据集，其中包含物理、化学和数学领域中1101个难度级别不同的陈述、300个常识陈述和567个错误陈述。进行了人工评估以验证我们的模型评估，在所考虑的所有三个指标上实现了约0.7的加权Cohen's kappa。我们发现，虽然GPT-4和Mistral 8x7b等大型模型擅长生成连贯且相关的问题，但较小的Phi-2模型同样或更有效。这表明，模型的知识获取潜力并不仅仅取决于其大小。所提出的框架量化了一个关键的模型能力，该能力通常被忽视，并为开发更具知识的AI系统开辟了研究机会。