摘要
arXiv:2406.16899v2 宣告类型: replace-cross
摘要:本研究探讨了大型语言模型(LLMs)评估由传统统计因果发现方法生成的因果图中的因果关系的能力——这是一个传统上依靠领域专家手工评估的任务。为弥补因果关系评估中的这一缺陷,LLMs 被用于通过判断能否从文本上下文中推断变量对之间的因果联系来评估因果关系。我们的研究比较了两种方法:(1)基于提示的方法进行零样本和少样本因果推理,以及(2)针对因果关系预测任务微调语言模型。虽然基于提示的 LLMs 在各种 NLP 任务中展现出了很强的灵活性,但在针对生物医学和通用领域数据集的实验中,我们发现微调模型始终表现出优越性,即使使用参数量较小的语言模型,F1 分数的提升也达到了 20.5 点。这些发现为进一步探索因果图评估中两种方法的优势和局限性提供了宝贵的见解。