LLM2D
XMeCap:基于子图像适应性的表情包字幕生成
XMeCap: Meme Caption Generation with Sub-Image Adaptability
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2407.17152v3

摘要

幽默,深深植根于社会意义和文化细节,对机器来说是一个独特的挑战。尽管自然语言处理领域取得了进展,但现实世界中的幽默往往在多模态环境中蓬勃发展,尤其是通过表情包独特地体现出来。本文特别强调了多图像对表情包字幕生成的影响。随后,我们介绍了\textsc{XMeCap}框架,这是一种新颖的方法,采用基于创新奖励模型的监督微调和强化学习,该模型综合考虑了视觉和文本之间的全局和局部相似性。我们的结果在与当代模型的基准测试中显示,无论是单图像还是多图像表情包,以及不同类别的表情包,字幕生成都显著改善。\textsc{XMeCap}在单图像表情包上的平均评分为75.85,在多图像表情包上的平均评分为66.32,分别比最佳基线高出3.71%和4.82%。这项研究不仅在表情包相关研究中开辟了新的前沿,还强调了机器在多模态环境中理解和生成幽默的潜力。