LLM2D

摘要

arXiv:2407.12879v4 宣传类型：替代交叉摘要：大型视觉-语言模型（LVLMs）在各种跨模态基准测试中表现出卓越的视觉-语言推理性能。尽管取得了这些进展，但最近的研究表明，大型语言模型（LLMs），如GPT-3.5-turbo，在假新闻检测（FND）任务中不如精心训练的小型模型（如BERT）表现出色，这引发了对LVLMs在FND任务效果的疑问。虽然通过微调LVLMs可以提高其性能，但其庞大的参数量和所需的预训练权重使其在FND应用中成为一个资源密集型的挑战。本文首先评估了两种值得关注的LVLMs——CogVLM和GPT4V，在零样本情况下，与更小但训练良好的CLIP模型在FND能力上的对比。研究结果表明，LVLMs可以在性能上与更小的模型相竞争。接下来，我们将标准的上下文内学习（ICL）与LVLMs结合，注意到FND性能有所提升，尽管范围有限且一致性较低。为了解决这个问题，我们引入了**I**n-context **M**ultimodal **F**ake **N**ews **D**etection（IMFND）框架，在上下文内示例和测试输入中加入从精心训练的小型模型获得的预测及其相应概率。这种战略性的整合使LVLMs的焦点集中在与较高概率相关的新闻片段上，从而提高了它们的分析准确性。实验结果表明，IMFND框架显著提高了LVLMs的FND效率，在三个公开的FND数据集上实现了优于标准ICL方法的增强准确性。