LLM2D
古希腊纸草学与铭文学中预训练因果语言模型的指令微调
Instruct-Tuning Pretrained Causal Language Models for Ancient Greek Papyrology and Epigraphy
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13870v1

摘要

本文介绍了一项实验,旨在通过微调预训练的因果语言模型(Meta的Llama 3.1 8B Instruct)来辅助语文学研究的三个基本任务:古希腊铭文和文献纸莎草的年代和地理归属以及文本修复。采用基于提示的指导方法,微调后的模型在关键指标上超越了现有技术水平。对于铭文,模型实现了更低的平均字符错误率(CER),达到22.5%(相比26.3%),同时在最多10个字符的序列中,与最高准确率(60.9% vs. 61.8%)和前20准确率(77.5% vs. 78.3%)相当。它们还通过在重建过程中忽略空格,更好地与古代书写文物中常用的连续书写方式相匹配,提供了实际优势。在地理归属方面,模型在最高准确率(75.0% vs. 70.8%)和前三准确率(83.7% vs. 82.1%)上超越了以往基准。在年代归属方面,模型实现了平均偏差26.2年(相比29.3年)和中位偏差1年(相比3年)。模型还为文献纸莎草设定了新的基准,文本重建的CER为16.3%,最高准确率为71.3%,前20准确率为85.0%;地理归属的最高准确率为66.4%,前三准确率为79.9%;年代归属的偏差为21.7年,中位偏差为0年。