摘要
arXiv:2502.02903v1 交叉类型:
摘要:文本嵌入模型通常会表现出由训练数据带来的偏见。在本文中,我们探讨了一种先前未被研究的文本嵌入偏见:由文本中存在的人员、地名、组织等名称引起的偏见。我们的研究展示了文本嵌入模型中的名称偏见可能导致在主题相似性评估中产生错误的结论。文本嵌入可能会错误地基于文本中的名称将文本标记为相似,即使它们的实际语义内容并无相似之处,或者仅因为文本中的名称不同而标记为不相似,即使它们在语义上匹配。我们首先在不同的文本嵌入模型中展示了名称偏见的存在,然后提出了一种在推理过程中进行文本匿名化的方法,即去除对名称的引用,同时保留文本的核心主题。通过在两个下游NLP任务上的有效性证明,展示了匿名化方法的有效性,实现了显著的性能提升。我们的简单且无需训练优化的方法提供了一种实用且易于实现的解决方案,以减轻名称偏见。