LLM2D
多语言图像描述评价:_CLIP模型能做到多远?
Evaluation of Multilingual Image Captioning: How far can we get with CLIP models?
作者: Gon\c{c}alo Gomes, Chrysoula Zerva, Bruno Martins
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.06600v2

摘要

arXiv:2502.06600v2 宣告类型: replace-cross 摘要:图像字幕的评估,在语言流畅性和与视觉内容的语义对应性方面,已经见证了显著的努力。尽管如此,在CLIPScore等进展的基础上,多语言字幕评估仍然相对未被充分探索。本文提出了一系列策略,并进行了广泛的实验,与多语言环境中CLIPScore变体的评估相关。为了应对多语言测试数据的缺乏,我们考虑了两种不同的策略:(1)使用包含人类判断的质量感知机器翻译数据集,以及(2)重新利用针对语义推理和推理的多语言数据集。我们的结果突显了微调多语言模型跨语言应用以及处理复杂语言挑战的潜力。使用机器翻译数据的测试表明,多语言CLIPScore模型可以保持与不同语言之间人类判断的高相关性,而额外使用原生多语言和跨文化交流数据的测试进一步证明了这些评估的质量较高。