LLM2D
1900-1950年间历史中文资料的词分割、词性标注和命名实体识别比较分析
A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950
作者: Zhao Fang, Liang-Chun Wu, Xuening Kong, Spencer Dean Stewart
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19844v1

摘要

arXiv:2503.19844v1 Announce Type: cross 摘要:本文比较了大型语言模型(LLMs)和传统自然语言处理(NLP)工具,对1900年至1950年间的中文文本进行词段划分、词性标注和命名实体识别。由于历史中文文献采用表意文字体系、缺乏自然的单词边界以及语言上的显著变化,给文本分析带来了挑战。使用上海图书馆民国期刊语料库的一个样本数据集,本文将传统工具如jieba和spaCy,与GPT-4o、Claude 3.5和GLM系列等大型语言模型进行比较。结果显示,尽管在计算成本方面显著增加,大型语言模型在所有指标上均优于传统方法,突显了准确性和效率之间的权衡。此外,大型语言模型能够更好地处理特定文体的挑战,如诗歌以及时间变化(即1920年以前与1920年以后的文本),这表明它们的上下文学习能力可以推进对历史文本的NLP方法,减少对特定领域训练数据的需求。