LLM2D

摘要

arXiv:2502.13061v1 通知类型: cross 摘要: 恶意(memes)在网络上的存在已成为一个重要关注点，需要强大的自动化检测系统。尽管大型多模态模型在各种任务中展示了较强的泛化能力，但在恶意 meme 检测方面表现出较差的泛化能力，这归因于 meme 与不断涌现的社会趋势和突发新闻密切相关。最新的工作进一步指出了在这一背景下，传统监督微调对大型多模态模型的局限性。为了解决这些挑战，我们提出了一种新的两阶段微调框架 Large Multimodal Model Retrieval-Guided Contrastive Learning (LMM-RGCL)，旨在提高领域内准确性和跨域泛化能力。在六个广泛使用的 meme 分类数据集上的实验结果表明，LMM-RGCL 达到了最先进的性能，超越了基于代理的系统，如 VPD-PALI-X-55B。此外，我们的方法在资源有限的情况下有效泛化到领域外的 meme，超越了如 GPT-4o 等模型。