摘要
arXiv:2409.13592v1 公告类型: 交叉 摘要: 理解讽刺和幽默对于当前的视觉语言模型来说是一项艰巨的任务。在本文中,我们提出了讽刺图像检测(检测图像是否具有讽刺意味)、理解(生成图像具有讽刺意味的原因)和完成(给定图像的一半,从两个给定选项中选择另一半,使得完整的图像具有讽刺意味)等具有挑战性的任务,并发布了一个高质量的数据集YesBut,包含2547张图像,其中1084张具有讽刺意味,1463张不具有讽刺意味,涵盖了不同的艺术风格,用于评估这些任务。数据集中的每张讽刺图像都描绘了一个正常场景,同时伴随着一个冲突的场景,这些场景既有趣又具有讽刺意味。尽管当前的视觉语言模型在多模态任务如视觉问答和图像描述方面取得了成功,但我们的基准测试实验表明,这些模型在YesBut数据集上的零样本设置下,对于所提出的任务在自动化和人工评估方面表现不佳。此外,我们还发布了一个包含119张真实讽刺照片的数据集,供进一步研究使用。数据集和代码可在https://github.com/abhi1nandy2/yesbut_dataset获取。