LLM2D

摘要

arXiv:2504.11169v1 交叉公告类型摘要：性别主义通常被定义为基于性别或性别的偏见和歧视，影响社会的每一个领域，从社会制度到人际关系和个人行为。社交媒体平台通过不仅通过文本而且还通过多种模态传播歧视内容，突显出在线分析性别主义时采用多模态方法的必要性。随着用户发布短视频的社交媒体平台的兴起，性别主义正越来越多地通过视频内容传播。自动检测视频中的性别主义是一项具有挑战性的任务，因为这需要分析语音、音频和视觉元素的组合以识别性别歧视内容。在本研究中，(1) 我们介绍了 MuSeD，一个新的用于性别歧视检测的多模态西班牙语数据集，包含来自 TikTok 和 BitChute 的约 11 小时的视频；(2) 我们提出了一种创新的标注框架，用于分析文本和多模态标签在性别歧视和非性别歧视内容分类中的贡献；(3) 我们评估了多种大型语言模型（LLMs）和多模态 LLMs 在性别主义检测任务中的性能。我们发现视觉信息对于人类和模型在分类性别歧视内容时都起到了关键作用。模型有效地识别了明确的性别歧视，但在隐含性别主义的情况下，如刻板印象和注释者也表现出低一致性的实例时，却表现不佳。这强调了任务的固有难度，因为识别隐含性别主义取决于社会和文化背景。