LLM2D

摘要

我们提出了一种从文本中分类因果微叙述的新方法。这些叙述是对目标主题的起因和/或结果的句子级解释。该方法只需要一个与主题相关的起因和结果本体，我们通过对通货膨胀叙述的应用来证明这一点。使用一个涵盖美国历史和当代新闻文章的人工标注数据集进行训练，我们评估了几个大型语言模型（LLM）在这个多标签分类任务上的表现。表现最好的模型——一个微调后的 Llama 3.1 8B——在叙述检测方面的 F1 分数为 0.87，在叙述分类方面的 F1 分数为 0.71。全面的错误分析揭示了由语言歧义带来的挑战，并强调了模型错误如何经常反映人类标注者的分歧。这项研究为从现实世界数据中提取因果微叙述建立了一个框架，在社会科学研究中具有广泛的应用。