LLM2D

摘要

随着机器学习 (ML) 模型越来越多地应用于社会领域，对人类做出具有决定性意义的决策，它们往往具有重塑数据分布的能力。人类作为战略性主体，会不断调整自己的行为以应对学习系统。随着人口动态变化，ML 系统可能需要频繁更新以确保高性能。然而，在社会领域获取高质量的人工标注样本可能极具挑战，甚至不可行。解决这个问题的常用做法是使用模型本身来标注未标记的数据样本。本文研究了当 ML 模型在整合了人类战略性反应后，使用模型标注样本进行重新训练的长期影响。我们首先将战略性主体与模型之间的交互行为形式化，然后分析它们在这种动态交互下是如何演化的。我们发现，随着模型不断重新训练，主体获得正面决策的可能性越来越大，而具有正面标签的主体比例可能会随着时间的推移而下降。因此，我们提出了一种改进的重新训练过程来稳定这种动态。最后，我们研究了这些重新训练过程如何影响算法公平性，发现每轮强制执行常见的公平性约束可能不会从长远来看对弱势群体有利。在（半）合成数据和真实数据上的实验验证了理论发现。