LLM2D

摘要

arXiv:2502.11132v1 宣告类型：cross 摘要：多模态假新闻检测通常需要复杂的架构和大量的计算资源，这在实际应用中带来了部署挑战。我们提出了一种名为UNITE-FND的新框架，将其重新定义为单模态文本分类任务。我们利用Gemini 1.5 Pro提出了六种专门的提示策略，将视觉内容转化为结构化的文本描述，使高效的文字模型能够保留关键的视觉信息。为了评估我们方法的有效性，我们引入了Uni-Fakeddit-55k这一精心构建的数据集系列，该系列包含55,000个样本，每个样本都通过我们的多模态到单模态翻译框架进行了处理。实验结果表明，UNITE-FND在二分类任务中的准确率达到92.52%，超越了之前的多模态模型，同时计算成本降低了超过10倍（使用TinyBERT变体：14.5M参数，相比处于SOTA水平的模型，参数量超过250M+）。此外，我们还提出了一套全面的五个新指标来评估图像到文本转换的质量，确保信息的最佳保留。我们的结果显示，结构化的文本表示可以在几乎不损失准确性的前提下替代直接的多模态处理，使得UNITE-FND成为资源受限环境中的实用且可扩展的替代方案。