LLM2D

摘要

arXiv:2504.20902v1 宣告类型: cross 摘要：下载预训练模型的人员应该意识到其存在的偏见。现有的偏见识别方法依赖于包含所关心任务标签的数据集，这可能非专家无法访问，或者无法收集足够的资源：这极大地限制了可以识别模型偏见的任务数量。在本文中，我们提出了Classifier-to-Bias (C2B)，这是一种无需访问任何带标签数据的新偏见发现框架：它仅依靠分类任务的文本描述来识别目标分类模型中的偏见。该描述被输入到大型语言模型中，以生成偏见提案以及描绘偏见的相应标题，这些标题包括特定任务的目标标签。检索模型收集这些标题对应的文章，然后使用这些文章评估模型相对于给定偏见的准确性。C2B 是无需训练的，不需要任何标注，对偏见列表没有任何限制，并可以应用于任何预训练模型的任务。在两个公开可用的数据集上的实验表明，C2B 发现了原始数据集以外的偏见，并超越了依赖特定任务标注的最新偏见检测基准，这是朝着解决任务无关的无监督偏见检测迈出的有前景的第一步。