LLM2D
VilBias: 通过语言和视觉线索进行偏差检测的研究,包括注释策略、评估和主要挑战
VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges
作者: Shaina Raza, Caesar Saleh, Emrul Hasan, Franklin Ogidi, Maximus Powers, Veronica Chatrath, Marcelo Lotif, Roya Javadi, Anam Zahid, Vahid Reza Khazaie
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2412.17052v3

摘要

arXiv:2412.17052v3 宣告类型: 替换 摘要: 将大型语言模型(LLMs)和视觉语言模型(VLMs)结合起来,为多媒体内容分析开辟了新的途径,特别是在有偏见的新闻检测方面。本研究介绍了VLBias框架,该框架利用最先进的LLMs和VLMs来检测新闻内容中的语言和视觉偏见。我们提供了一个多媒体数据集,包括来自多样新闻来源的文本内容和相应的图像。我们提出了一种混合注释框架,结合利用LLMs进行注释与人工审核,以确保高质量的标记同时降低成本并提高可扩展性。我们的评估比较了最先进的SLMs和LLMs在两种模态(文本和图像)上的性能,结果表明,尽管SLMs在计算效率上占优势,但LLMs在识别细微的框架和文本-视觉不一致性方面表现更准确。此外,实证分析表明,结合视觉线索以与文本数据一起使用可以将偏见检测的准确性提高3%至5%。本研究表明,LLMs、SLMs和VLMs作为检测新闻内容中多媒体偏见的工具的全面探索,并突显了它们各自的优点、局限性和未来应用的潜力。