摘要
arXiv:2502.12755v1 Announce Type: 多领域交叉
摘要:本文介绍了一种先进的机器翻译(MT)语料库生成方法,结合了半自动化、有人参与的后编辑与大型语言模型(LLMs),旨在提高效率和翻译质量。在此前利用实时训练定制MT质量评估指标的研究基础上,该系统整合了增强翻译合成和辅助注解分析等新型LLM特性,分别改进了初始翻译假设和质量评估。此外,该系统采用了LLM驱动的伪标签标注和翻译推荐系统,以减少特定情境下的人工注释员工作量。这些改进不仅保留了原始的降低成本和提高后编辑质量的优势,还为利用最新LLM进展开辟了新的途径。该项目的源代码供社区使用,促进了该领域的协作开发。可以在这里访问演示视频。