LLM2D
NER4all 或者语境就是你需要的一切:一种基于人类学视角的低 Effort、高性能的历史文本命名实体识别方法
NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach
作者: Torsten Hiltmann, Martin Dr\"oge, Nicole Dresselhaus, Till Grallert, Melanie Althage, Paul Bayer, Sophie Eckenstaler, Koray Mendi, Jascha Marijn Schmitz, Philipp Schneider, Wiebke Sczeponik, Anica Skibba
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04351v1

摘要

arXiv:2502.04351v1 交叉公布类型: cross 摘要:命名实体识别(NER)是历史研究中自动建立所有对人物、地点、事件等方面引用的核心任务。然而,由于来源的高度语言多样性和体裁多样性、拼写标准化的有限性、所需的历史领域知识水平以及注释训练数据的匮乏,传统的自然语言处理(NLP)方法既极其昂贵,又在召回率和精确率方面表现不尽如人意。我们在这篇论文中引入了一种新的方法。我们展示了如何广泛可用的最先进的语言模型(LLMs)在历史文档的命名实体识别(NER)中显著优于spaCy和flair这两个领先的NLP框架,其F1分值高出7%到22%。我们的消融研究显示,提供历史上下文和一点人物建模(转向非纯粹语言学方法)是成功提示策略的核心。我们还证明,与我们的预期相反,在少量样本方法中增加了示例数量,并未在达到16射频次阈值以下改善召回率或精确率。因此,我们的方法通过去除使用传统NLP工具所需的编写语言和计算技能障碍,进而民主化了所有历史学家对命名实体识别的访问,而是利用自然语言提示和消费级工具及前端。