摘要
arXiv:2504.16000v1 交叉公告类型
摘 要:上下文学习(ICL)——基于转换器的模型在推理时根据提供的示例执行新任务的能力——已成为现代语言模型的一个核心特征。尽管近期研究已探讨了ICL背后的机制,但在正式隐私约束下的可行性仍未得到充分探索。在本文中,我们提出了一种用于线性注意力头的差异隐私预训练算法,并首次对线性回归中ICL的隐私-准确性的权衡进行了理论分析。我们的结果刻画了优化和隐私引起的噪声之间的基本矛盾,正式捕捉了通过迭代方法进行隐私培训时观察到的行为。此外,我们展示了我们的方法对训练提示的对抗性扰动具有鲁棒性,这与标准岭回归不同。所有理论发现都得到了各种情况下广泛模拟的支持。