摘要
arXiv:2504.13209v1 宣告类型:交叉
摘要:增强现实(AR)和多模态大型语言模型(LLMs)正在迅速发展,为人类计算机交互提供了前所未有的能力。然而,它们的集成引入了一个新的社会工程攻击表面。在本文中,我们首次利用我们提出的SEAR框架系统地研究了使用多模态LLMs orchestrating AR驱动的社会工程攻击的可行性,该框架通过三个关键阶段运行:(1)基于AR的社会环境合成,融合多模态输入(视觉、听觉和环境线索);(2)基于角色的多模态RAG(检索增强生成),在保持角色区分的同时,动态检索和集成上下文数据;以及(3)ReInteract社会工程代理,通过推理交互循环执行适应性的多阶段攻击策略。为了验证SEAR,我们获得了伦理委员会批准,在三个实验配置(未辅助、AR+LLM和完整SEAR流水线)下进行了60名参与者的研究,收集了一个包含180个标注对话的新数据集,模拟了社会场景。我们的结果显示,SEAR在诱使高风险行为(例如,93.3%的参与者容易受到电子邮件欺诈)方面非常有效。该框架在建立信任方面特别有效,有85%的目标在交互后愿意接受攻击者的电话。此外,我们还发现了诸如“有时人工”之类的局限性,这可能是由于真实感差距造成的。这项工作为AR-LLM驱动的社会工程攻击提供了概念验证,并为开发针对下一代增强现实威胁的防御对策提供了见解。