摘要
arXiv:2504.19373v2 公告类型: replace-cross
摘要:随着如ChatGPT o3这类具代理性的多模态大型推理模型能力的不断增强,隐私泄露通过不经意的图像地理定位变得愈加关键。在本文中,我们首次系统地并受控地研究了ChatGPT o3的视觉推理能力潜在隐私风险。我们手动收集并构建了一个包含50张真实世界图像的数据集,这些图像包含个人以及与隐私相关环境元素,捕捉了实际且敏感的场景以供分析。实验评估表明,ChatGPT o3能够以高精度预测用户位置,在60%的情况下达到街区级精度(误差在一英里以内)。通过对这些图像的分析,我们发现关键视觉线索,包括街道布局和前院设计,显著促进了模型推理的成功。此外,针对性的遮挡实验表明,掩盖关键特征能够有效降低地理定位精度,提供了潜在防御机制的见解。我们的发现强调了对于具代理性的多模态大型推理模型的隐私意识开发的迫切需求,尤其是在涉及私人图像的应用中。