LLM2D

摘要

幽默，深深植根于社会意义和文化细节，对机器来说是一个独特的挑战。尽管自然语言处理领域取得了进展，但现实世界中的幽默往往在多模态环境中蓬勃发展，尤其是通过表情包独特地体现出来。本文特别强调了多图像对表情包字幕生成的影响。随后，我们介绍了\textsc{XMeCap}框架，这是一种新颖的方法，采用基于创新奖励模型的监督微调和强化学习，该模型综合考虑了视觉和文本之间的全局和局部相似性。我们的结果在与当代模型的基准测试中显示，无论是单图像还是多图像表情包，以及不同类别的表情包，字幕生成都显著改善。\textsc{XMeCap}在单图像表情包上的平均评分为75.85，在多图像表情包上的平均评分为66.32，分别比最佳基线高出3.71%和4.82%。这项研究不仅在表情包相关研究中开辟了新的前沿，还强调了机器在多模态环境中理解和生成幽默的潜力。