LLM2D

摘要

本文介绍了一项实验，旨在通过微调预训练的因果语言模型（Meta的Llama 3.1 8B Instruct）来辅助语文学研究的三个基本任务：古希腊铭文和文献纸莎草的年代和地理归属以及文本修复。采用基于提示的指导方法，微调后的模型在关键指标上超越了现有技术水平。对于铭文，模型实现了更低的平均字符错误率（CER），达到22.5%（相比26.3%），同时在最多10个字符的序列中，与最高准确率（60.9% vs. 61.8%）和前20准确率（77.5% vs. 78.3%）相当。它们还通过在重建过程中忽略空格，更好地与古代书写文物中常用的连续书写方式相匹配，提供了实际优势。在地理归属方面，模型在最高准确率（75.0% vs. 70.8%）和前三准确率（83.7% vs. 82.1%）上超越了以往基准。在年代归属方面，模型实现了平均偏差26.2年（相比29.3年）和中位偏差1年（相比3年）。模型还为文献纸莎草设定了新的基准，文本重建的CER为16.3%，最高准确率为71.3%，前20准确率为85.0%；地理归属的最高准确率为66.4%，前三准确率为79.9%；年代归属的偏差为21.7年，中位偏差为0年。