LLM2D
大型语言模型是否适合作为话语级事件关系抽取的标注工具?
Are LLMs Good Annotators for Discourse-level Event Relation Extraction?
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2407.19568v2

摘要

大型语言模型 (LLMs) 在众多自然语言处理任务中展现出卓越的能力。然而,其在篇章级事件关系抽取 (ERE) 任务中的有效性尚未得到探索。本文评估了 LLMs 在解决篇章级 ERE 任务方面的有效性,这些任务的特点是文档冗长且关系复杂,涵盖了共指、时间、因果和子事件类型。评估使用商业模型 GPT-3.5 和开源模型 LLaMA-2 进行。我们的研究表明,与通过监督学习建立的基线相比,LLMs 的表现明显不佳。尽管监督微调 (SFT) 可以提高 LLMs 的性能,但与较小的监督基线模型相比,它无法很好地扩展。我们的定量和定性分析表明,LLMs 在应用于提取事件关系时存在几个弱点,包括倾向于捏造事件提及,以及无法捕获关系之间的传递规则、检测长距离关系或理解包含密集事件提及的上下文。