LLM2D
文本和图像都泄露了!一种关于多模态LLM数据污染的系统分析
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
作者: Dingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2411.03823v2

摘要

arXiv:2411.03823v2 通知类型: 替换交叉 摘要: 多模态大规模语言模型(MLLMs)的快速发展在各种多模态基准测试中展示了出色的表现。然而,在训练过程中数据污染的问题给性能评估和比较带来了挑战。虽然有许多方法可以检测大规模语言模型(LLMs)中模型的数据污染,但由于MLLMs具有多种模态和多个训练阶段,这些方法在MLLMs中的效果较差。在这项研究中,我们引入了一个针对MLLMs的多模态数据污染检测框架,MM-Detect。实验结果表明,MM-Detect 在识别不同程度的数据污染方面非常有效和灵敏,并且可以突出显示由于多模态基准训练集泄露带来的显著性能改进。此外,我们还探讨了数据污染是源自MLLMs使用的基础LLMs,还是多模态训练阶段,为数据污染可能引入的阶段提供了新的见解。