LLM2D

摘要

arXiv:2505.05423v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）的影响已经扩展到了文学领域。然而，现有的评估指标注重机械准确性而忽视了艺术表达，且倾向于高估机器翻译（MT）的质量，认为其优于经验丰富的人工译者的翻译。从长远来看，这种偏见可能导致翻译质量和文化真实性的永久下降。为应对专门用于文学翻译评估的特殊评估指标的迫切需求，我们引入了LiTransProQA，这是一个基于LLM的新颖、无需参考的问答框架，专为文学翻译评估设计。LiTransProQA独特地结合了专业文学译者和研究人员的见解，重点关注文学质量评估中的关键要素，如文学手法、文化理解以及作者声音。我们广泛的研究表明，尽管经过文学微调的XCOMET-XL实现了微小的改进，但LiTransProQA在当前指标中的表现要明显更好，获得了高达0.07的皮尔逊相关系数和肯德尔τ系数的提升，并在充分性评估中超过了当前最先进指标15分以上。将专业译者的见解作为权重进一步提高了性能，突显了翻译者输入的价值。值得注意的是，LiTransProQA的表现接近受过训练的语言注释者的评估水平。这表明它具有广泛的应用性，适用于诸如LLaMA3.3-70b和Qwen2.5-32b等开源模型，表明其作为无障碍且无需训练的文学评估指标和评价受版权或伦理限制而需要本地处理的文本有价值的工具的潜力。