LLM2D

摘要

arXiv:2502.00385v1 Announce Type: cross 摘要：虽然使用政治多样化内容预训练语言模型已被证明可以提高下游任务的公平性，但这样的方法往往需要大量的计算资源，而许多研究者和组织无法获取这些资源。最近的研究显示，基于人设的提示可以引入模型输出的政治多样化，而无需额外的训练。然而，尚不清楚这样的提示策略是否能够在下游任务中达到与政治预训练相当的效果。我们通过在多模态仇恨言论检测任务中使用基于人设的提示策略来探讨这个问题，特别是关注在 meme 中的仇恨言论。我们的分析结果显示，在将人设映射到政治罗盘和测量人设一致性的过程中，固有的政治定位与分类决策之间出乎意料地缺乏关联。值得注意的是，即使明确注入了更强的意识形态描述，这一缺乏关联的现象仍然存在。我们的研究发现表明，虽然语言大模型在回答直接政治问题时可能会表现出政治偏见，但这些偏见对实际分类任务的影响可能不像预期的那样显著。这提出了一个重要问题，即计算成本高昂的政治预训练是否对于在下游任务中实现公平性能是必需的。