摘要
arXiv:2409.03735v2 通告类型: replace-cross
摘要:随着大型语言模型(LLMs)被整合到社会技术系统中,研究它们表现出的隐私偏差至关重要。隐私偏差指的是LLMs从大量未公开的训练数据中获得的信息流动在特定上下文中的适当性偏差。这种偏差可能与现有预期一致,也可能反映在训练数据集中反映出的系统性问题的症状。
我们提出了一个全新的研究问题:我们如何检查LLMs训练数据中的隐私偏差?我们提出了一种新的方法,使用基于上下文完整性的方法来评估不同LLMs的响应,以评估隐私偏差。我们的方法考虑了提示变化对响应灵敏度的影响,这阻碍了对隐私偏差的评估。我们研究了模型容量和优化如何影响隐私偏差。