摘要
arXiv:2504.20902v1 宣告类型: cross
摘要:下载预训练模型的人员应该意识到其存在的偏见。现有的偏见识别方法依赖于包含所关心任务标签的数据集,这可能非专家无法访问,或者无法收集足够的资源:这极大地限制了可以识别模型偏见的任务数量。在本文中,我们提出了Classifier-to-Bias (C2B),这是一种无需访问任何带标签数据的新偏见发现框架:它仅依靠分类任务的文本描述来识别目标分类模型中的偏见。该描述被输入到大型语言模型中,以生成偏见提案以及描绘偏见的相应标题,这些标题包括特定任务的目标标签。检索模型收集这些标题对应的文章,然后使用这些文章评估模型相对于给定偏见的准确性。C2B 是无需训练的,不需要任何标注,对偏见列表没有任何限制,并可以应用于任何预训练模型的任务。在两个公开可用的数据集上的实验表明,C2B 发现了原始数据集以外的偏见,并超越了依赖特定任务标注的最新偏见检测基准,这是朝着解决任务无关的无监督偏见检测迈出的有前景的第一步。