LLM2D
利用大型语言模型模拟表格数据集以快速探索关于现实世界实体的假设
Simulating Tabular Datasets through LLMs to Rapidly Explore Hypotheses about Real-World Entities
作者: Miguel Zabaleta, Joel Lehman
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18071v1

摘要

恐怖小说作家童年经历是否比其他作家更糟糕?尽管许多作家的生平细节为人所知,但定量探索这种定性假设需要大量的人力,例如筛选大量作家的传记和访谈,并反复寻找反映定性兴趣的定量特征。本文探讨了通过以下方法快速构建此类假设的潜力:(1)应用大型语言模型 (LLM) 来估计具体实体(如特定人物、公司、书籍、动物种类和国家)的属性;(2)执行现成的分析方法来揭示这些属性之间可能的关系(例如线性回归);以及为了进一步自动化,(3)应用大型语言模型来提出可能有助于支持特定定性假设的定量属性本身(例如,在正在运行的示例中,逆境童年事件的数量)。希望通过人机协作,能够更快地筛选假设。我们的实验表明,大型语言模型确实可以作为各种领域中特定实体表格数据的有用估计器,并且这种估计随着模型规模的扩大而改进。此外,初步实验表明,大型语言模型具有将感兴趣的定性假设映射到大型语言模型可以估计的相关具体变量的潜力。结论是,大型语言模型为帮助阐明其训练所基于的互联网规模数据中潜在的科学有趣模式提供了诱人的潜力。