LLM2D
度量-DST:通过多样性引导的半监督度量学习来减轻选择偏差
Metric-DST: Mitigating Selection Bias Through Diversity-Guided Semi-Supervised Metric Learning
作者: Yasin I. Tepeli, Mathijs de Wolf, Joana P. Goncalves
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18442v1

摘要

选择偏差对机器学习的公平性构成了严峻挑战,因为在代表性不足的数据上训练的模型可能会对欠代表的群体表现出不良行为。半监督学习策略,如自训练,可以通过将未标记数据纳入模型训练来减轻选择偏差,从而进一步了解总体分布。然而,传统的自训练方法力求包含高置信度的数据样本,这可能会强化现有的模型偏差并影响有效性。我们提出了Metric-DST,这是一种多样性引导的自训练策略,它利用度量学习及其隐式嵌入空间,通过包含更多样化的样本对抗基于置信度的偏差。在存在选择偏差的情况下,Metric-DST在生成的和具有诱导偏差的真实世界数据集以及具有内在偏差的分子生物学预测任务中学习到更鲁棒的模型。Metric-DST学习策略提供了一种灵活且广泛适用的解决方案,以减轻选择偏差并增强机器学习模型的公平性。