LLM2D

摘要

大型语言模型 (LLMs) 在众多自然语言处理任务中展现出卓越的能力。然而，其在篇章级事件关系抽取 (ERE) 任务中的有效性尚未得到探索。本文评估了 LLMs 在解决篇章级 ERE 任务方面的有效性，这些任务的特点是文档冗长且关系复杂，涵盖了共指、时间、因果和子事件类型。评估使用商业模型 GPT-3.5 和开源模型 LLaMA-2 进行。我们的研究表明，与通过监督学习建立的基线相比，LLMs 的表现明显不佳。尽管监督微调 (SFT) 可以提高 LLMs 的性能，但与较小的监督基线模型相比，它无法很好地扩展。我们的定量和定性分析表明，LLMs 在应用于提取事件关系时存在几个弱点，包括倾向于捏造事件提及，以及无法捕获关系之间的传递规则、检测长距离关系或理解包含密集事件提及的上下文。