LLM2D

摘要

arXiv:2502.06600v1 交叉类型: cross 摘要: 评估图像描述，既考虑语言流畅性又考虑与视觉内容的语义对应性，已经取得了显著的努力。尽管如此，尽管有CLIPScore指标等进展，多语言描述评估仍然相对未被探索。本文提出了几种策略，并进行了广泛的实验，与评估多语言环境中的CLIPScore变体相关。为了解决缺乏多语言测试数据的问题，我们考虑了两种不同的策略：(1) 使用带有人工评价的高质量机器翻译数据集，以及 (2) 利用针对语义推理和推断的目标多语言数据集。我们的结果突显了微调的多语言模型在跨语言泛化以及处理复杂语言挑战方面的潜力。使用机器翻译数据的测试表明，多语言CLIPScore模型可以在不同语言中与人类评判保持高度相关性，而进一步使用原生多语言和跨文化数据的测试也证实了评估的高质量。