LLM2D
Home
Arxiv
返回列表
量化多模态、多语言检索训练中翻译与原生感知之间的差距
Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval
作者:
Kyle Buettner, Adriana Kovashka
发布日期:
10/4/2024
arXiv ID:
oai:arXiv.org:2410.02027v1
摘要
缺乏能够充分考虑跨语言和文化图像字幕中感知差异的多语言视觉语言模型。本研究通过多模态、多语言检索案例研究,量化了现有模型灵活性不足的问题。我们通过实证表明,在来自德语母语感知的字幕和从英语机器翻译或人工翻译成德语的字幕上训练,性能存在差距。为了解决这些差距,我们进一步提出了和评估了字幕增强策略。虽然我们实现了平均召回率的提升 (+1.3),但差距仍然存在,表明这是一个需要未来社区进一步研究的领域。
查看原文
下载 PDF