LLM2D

摘要

arXiv:2504.14359v1 Announce Type: cross 摘要：当描述、命名和分组图像中的对象时，存在许多方式。当说话者来自不同的文化时，由于其独特的经验会影响感知，差异是显而易见的。机器翻译caption已经推动了视觉语言模型(VLMs)的多语言能力，但数据主要来自英语母语者，这表明存在感知偏向，并且模型缺乏灵活性。在这项工作中，我们应对这一挑战，并提出一个数据高效框架，以使多语言VLMs更好地理解感知多样性。我们特别提出了一种基于LLM的多模态重述策略，在翻译之前更改英语caption的对象描述。最大的受益之处体现在由母语者数据指导的有针对性的多模态机制中。通过将生成的重写作为训练中的增强，我们在德文和日文本图检索案例研究中取得了改进（总体均召回率提高至+3.5%，在非母语错误案例中提高至+4.7%）。我们进一步提出了一种机制，以分析数据集之间特定对象描述的差异，并提供了跨数据集和跨语言泛化的见解。