摘要
arXiv:2504.18012v1 跨模态类型: 横向
摘要: 多模态机器翻译(MMT)旨在通过利用辅助模态,如图像,来提高翻译质量。尽管大规模预训练语言和视觉模型在单模态自然语言处理任务中的进步显著,但它们在MMT中的有效性和作用尚未充分探索。在本工作中,我们系统研究了预训练编码器和解码器在多模态翻译模型中的影响。具体而言,我们分析了从从头训练到使用预训练和部分冻结组件的不同训练策略如何在统一的MMT框架下影响翻译性能。我们在英语-德语和英语-法语翻译任务中使用Multi30K和CoMMuTE数据集进行了实验。我们的结果揭示了在多模态设置中预训练起着关键但不均匀的作用:预训练解码器始终产生更流畅和准确的输出,而预训练编码器的效果则取决于图像-文本对齐的质量。此外,我们探讨了模态融合与预训练组件之间的相互作用,为未来多模态翻译系统架构设计提供指导。