摘要
大型视觉语言模型的进展催生了许多改善生活的应用。然而,它们被滥用以制造新的威胁的可能性在很大程度上仍未被探索。本文揭示了视觉语言模型(VLMs)可以被用来克服联邦学习(FL)中梯度反转攻击(GIAs)长期存在的局限性,在联邦学习中,FL服务器从受害者客户端共享的梯度中重建私有数据样本。目前的GIAs在重建高分辨率图像方面面临挑战,尤其是在受害者拥有大量本地数据批次的情况下。虽然专注于重建有价值的样本而不是整个批次很有前景,但现有方法缺乏灵活性,无法让攻击者指定他们的目标数据。在本文中,我们介绍了Geminio,这是第一种将GIAs转化为语义上有意义的、有针对性攻击的方法。Geminio实现了全新的隐私攻击体验:攻击者可以用自然语言描述他们认为有价值的数据类型,Geminio将优先重建以关注这些高价值样本。这是通过利用预训练的VLM来指导恶意全局模型的优化来实现的,该模型在与受害者共享和优化后,只保留与攻击者指定的查询匹配的样本的梯度。大量的实验表明,Geminio在精确定位和重建目标样本方面非常有效,在FL和大型批次大小下,在复杂数据集上取得了很高的成功率,并显示出对现有防御的抵抗力。