LLM2D
揭晓源数据的力量:基于源数据的最小贝叶斯风险解码在神经机器翻译中的应用
Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation
作者: Boxuan Lyu, Hidetaka Kamigaito, Kotaro Funakoshi, Manabu Okumura
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.11632v4

摘要

arXiv:2406.11632v4 通知类型: replace-cross 摘要:最大后验解码是神经机器翻译(NMT)中常用的一种方法,其目标是最大化估计后验概率。然而,高估计概率并不总是导致高质量的翻译结果。最小贝叶斯风险(MBR)解码(参见 Kumar, 2004)提供了一种替代方案,通过寻求具有最高预期效用的假设来实现这一目标。 受Quality Estimation(QE)重排序启发(参见 Fernandes 等人, 2022),我们提出了一种基于源的MBR(sMBR)解码方法。该方法利用通过改写或反向翻译生成的“支持假设”和无参考的质量估计指标作为效用函数,这是首次单独使用源进行MBR解码的工作。实验表明,sMBR在性能上优于QE重排序和标准的MBR解码。我们的研究结果表明,sMBR是一种有前景的NMT解码方法。