LLM2D

摘要

arXiv:2502.04351v1 交叉公布类型: cross 摘要：命名实体识别（NER）是历史研究中自动建立所有对人物、地点、事件等方面引用的核心任务。然而，由于来源的高度语言多样性和体裁多样性、拼写标准化的有限性、所需的历史领域知识水平以及注释训练数据的匮乏，传统的自然语言处理（NLP）方法既极其昂贵，又在召回率和精确率方面表现不尽如人意。我们在这篇论文中引入了一种新的方法。我们展示了如何广泛可用的最先进的语言模型（LLMs）在历史文档的命名实体识别（NER）中显著优于spaCy和flair这两个领先的NLP框架，其F1分值高出7%到22%。我们的消融研究显示，提供历史上下文和一点人物建模（转向非纯粹语言学方法）是成功提示策略的核心。我们还证明，与我们的预期相反，在少量样本方法中增加了示例数量，并未在达到16射频次阈值以下改善召回率或精确率。因此，我们的方法通过去除使用传统NLP工具所需的编写语言和计算技能障碍，进而民主化了所有历史学家对命名实体识别的访问，而是利用自然语言提示和消费级工具及前端。