LLM2D

摘要

arXiv:2401.14931v2 宣布类型: 替换-交叉摘要：大规模语言模型（LLMs）在各种自然语言处理任务中展现了卓越的性能，但它们记忆结构化知识的能力尚未得到充分探索。在本文中，我们研究了通用预训练LLMs在保留并正确再现公开ontology中的概念标识符（ID）-标签关联方面的程度。我们利用Pythia-12B、Gemini-1.5-Flash、GPT-3.5和GPT-4等多种LLM，在Gene Ontology、Uberon、Wikidata和ICD-10等多个ontology资源上进行了系统性评估。我们的发现显示，只有少量ontology概念能够被准确记忆，而GPT-4表现出最高的性能。为了理解为什么某些概念比其他概念更有效地被记忆，我们分析了记忆准确性和概念在Web上的流行度之间的关系。我们的结果显示，概念在线出现的频率与其标签中准确检索其ID的可能性之间存在强烈的关联。这表明，LLMs主要通过间接的文本暴露获取此类知识，而不是直接从结构化ontology资源中获取。此外，我们引入了新的度量标准来量化预测不变性，证明模型响应在提示语言和温度设置变化下的稳定性可以作为估算记忆鲁棒性的代理。