LLM2D

摘要

缺乏能够充分考虑跨语言和文化图像字幕中感知差异的多语言视觉语言模型。本研究通过多模态、多语言检索案例研究，量化了现有模型灵活性不足的问题。我们通过实证表明，在来自德语母语感知的字幕和从英语机器翻译或人工翻译成德语的字幕上训练，性能存在差距。为了解决这些差距，我们进一步提出了和评估了字幕增强策略。虽然我们实现了平均召回率的提升 (+1.3)，但差距仍然存在，表明这是一个需要未来社区进一步研究的领域。