LLM2D

摘要

缺乏能够正确解释跨语言和文化图像字幕中感知差异的多语言视觉语言模型。本研究通过多模态、多语言检索案例研究，量化了现有模型灵活性的不足。我们通过实证研究表明，基于原生德语描述进行训练的模型与基于从英语机译或人工翻译成德语的描述进行训练的模型之间存在性能差距。为了解决这些差距，我们进一步提出并评估了字幕增强策略。虽然我们实现了平均查全率的提高（+1.3），但差距依然存在，这表明了该领域未来研究的一个开放方向。