LLM2D

VilBias: 通过语言和视觉线索进行偏差检测的研究，包括注释策略、评估和主要挑战

VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges

作者: Shaina Raza, Caesar Saleh, Emrul Hasan, Franklin Ogidi, Maximus Powers, Veronica Chatrath, Marcelo Lotif, Roya Javadi, Anam Zahid, Vahid Reza Khazaie

发布日期: 2/20/2025

arXiv ID: oai:arXiv.org:2412.17052v3

摘要

arXiv:2412.17052v3 宣告类型: 替换摘要: 将大型语言模型(LLMs)和视觉语言模型(VLMs)结合起来，为多媒体内容分析开辟了新的途径，特别是在有偏见的新闻检测方面。本研究介绍了VLBias框架，该框架利用最先进的LLMs和VLMs来检测新闻内容中的语言和视觉偏见。我们提供了一个多媒体数据集，包括来自多样新闻来源的文本内容和相应的图像。我们提出了一种混合注释框架，结合利用LLMs进行注释与人工审核，以确保高质量的标记同时降低成本并提高可扩展性。我们的评估比较了最先进的SLMs和LLMs在两种模态（文本和图像）上的性能，结果表明，尽管SLMs在计算效率上占优势，但LLMs在识别细微的框架和文本-视觉不一致性方面表现更准确。此外，实证分析表明，结合视觉线索以与文本数据一起使用可以将偏见检测的准确性提高3%至5%。本研究表明，LLMs、SLMs和VLMs作为检测新闻内容中多媒体偏见的工具的全面探索，并突显了它们各自的优点、局限性和未来应用的潜力。

查看原文下载 PDF