LLM2D

摘要

arXiv:2504.14804v1 交叉类型：综合性摘要：随着深度学习技术的迅速发展，机器翻译领域取得了显著进步，尤其是在大型语言模型（LLMs）的推动下，文档级别翻译得到了巨大提升。然而，准确评价文档级别翻译的质量仍然是一个迫切的问题。本文首先介绍了文档级别翻译的发展现状和评价的重要性，强调了自动评价指标在反映翻译质量和指导翻译系统改进方面的作用。随后，本文详细分析了当前自动评价方案和指标，包括有参考文本和无参考文本的评价方法，以及传统指标、模型基于指标和LLM基于指标。接着，本文探讨了当前评价方法面临的挑战，如参考文本多样性不足、对句子级别的对齐信息依赖、以及LLM作为评判者的偏见、不准确性和缺乏解释性。最后，本文展望了评价方法的未来趋势，包括开发更用户友好的文档级别评价方法和更稳健的LLM作为评判者的方案，并提出了可能的研究方向，如减少对句子级别信息的依赖、引入多层次和多粒度评价方法、以及专门训练用于机器翻译评价的模型。该研究旨在对文档级别翻译的自动评价进行全面分析，并为未来的发展提供洞见。