LLM2D

摘要

arXiv:2503.19844v1 Announce Type: cross 摘要：本文比较了大型语言模型（LLMs）和传统自然语言处理（NLP）工具，对1900年至1950年间的中文文本进行词段划分、词性标注和命名实体识别。由于历史中文文献采用表意文字体系、缺乏自然的单词边界以及语言上的显著变化，给文本分析带来了挑战。使用上海图书馆民国期刊语料库的一个样本数据集，本文将传统工具如jieba和spaCy，与GPT-4o、Claude 3.5和GLM系列等大型语言模型进行比较。结果显示，尽管在计算成本方面显著增加，大型语言模型在所有指标上均优于传统方法，突显了准确性和效率之间的权衡。此外，大型语言模型能够更好地处理特定文体的挑战，如诗歌以及时间变化（即1920年以前与1920年以后的文本），这表明它们的上下文学习能力可以推进对历史文本的NLP方法，减少对特定领域训练数据的需求。