LLM2D

摘要

arXiv:2505.05423v1 交叉领域公告类型摘要：大规模语言模型（LLMs）的影响已扩展到文学领域。然而，现有的评估指标更注重机械准确性而非艺术表现，倾向于高估机器翻译（MT）的质量，使其优于经验丰富的专业人工翻译。长远来看，这种偏见可能导致翻译质量和服务真实性的永久下降。为了应对此领域的紧急需求，我们引入了TransProQA，这是一个专为文学翻译评估设计的新型、无需参考的、基于语言模型的问题-答案（QA）框架。TransProQA独树一帜地结合了专业文学翻译者和研究者的见解，关注文学质量评估中的关键要素，如文学手法、文化理解以及作者的声音。我们的广泛评估显示，尽管文学微调的XCOMET-XL在细微上有所改善，但TransProQA在当前指标上显著超越，实现了多达0.07的增长（ACC-EQ和肯德尔tau的相关性）并在充分性评估中超过当前最佳的最先进的（SOTA）指标15个点以上。将专业翻译者的见解作为权重进一步提高了性能，突显了翻译者输入的价值。值得注意的是，TransProQA在评估性能上接近受过训练的语言注释者的水平。它展示了在开源模型如LLaMA3.3-70b和Qwen2.5-32b上的广泛应用，表明它有可能成为一种可访问且无需训练的文学评估指标，以及一种用于评估因版权或道德原因需要本地处理的文本的有价值的工具。