LLM2D

摘要

通过经验风险最小化训练的深度神经网络在不同群体之间往往表现出显著的性能差异，尤其是在群体标签和任务标签存在虚假相关性时（例如，“草地背景”和“奶牛”）。现有的旨在解决此问题的偏差缓解方法通常依赖于群体标签进行训练或验证，或者需要大量的超参数搜索。这些数据和计算要求阻碍了这些方法的实际部署，尤其是在数据集过大而无法进行群体标注、计算资源有限以及模型通过已经很复杂的管道进行训练的情况下。本文提出了一种针对性增强偏差缓解方法（TAB），该方法是一个简单的无超参数框架，利用辅助模型的整个训练历史来识别虚假样本，并生成一个群体平衡的训练集，从中可以训练一个鲁棒的模型。我们证明了 TAB 在没有任何群体信息或模型选择的情况下提高了最差群体性能，优于现有方法，同时保持了整体准确性。