摘要
arXiv:2505.05040v1 Announce Type: cross
摘要:各种社交媒体网络现在已有十多年允许上传媒体内容。然而,仍然不清楚这些媒体内容与发布的文本之间的关系,甚至可能根本不存在这种关系。在这项工作中,我们探讨了多语言视觉-语言模型如何在不同语言中处理图像-文本关系预测任务,并从爱沙尼亚语的推特帖子及其手动翻译成英语的数据集中构建了一个专用的平衡基准数据集。我们将我们的结果与之前的工作进行了比较,并展示了最近发布的视觉-语言模型检查点在这一任务上的能力不断增强,但仍有很多改进的空间。