LLM2D

摘要

arXiv:2504.13209v1 宣告类型：交叉摘要：增强现实（AR）和多模态大型语言模型（LLMs）正在迅速发展，为人类计算机交互提供了前所未有的能力。然而，它们的集成引入了一个新的社会工程攻击表面。在本文中，我们首次利用我们提出的SEAR框架系统地研究了使用多模态LLMs orchestrating AR驱动的社会工程攻击的可行性，该框架通过三个关键阶段运行：（1）基于AR的社会环境合成，融合多模态输入（视觉、听觉和环境线索）；（2）基于角色的多模态RAG（检索增强生成），在保持角色区分的同时，动态检索和集成上下文数据；以及（3）ReInteract社会工程代理，通过推理交互循环执行适应性的多阶段攻击策略。为了验证SEAR，我们获得了伦理委员会批准，在三个实验配置（未辅助、AR+LLM和完整SEAR流水线）下进行了60名参与者的研究，收集了一个包含180个标注对话的新数据集，模拟了社会场景。我们的结果显示，SEAR在诱使高风险行为（例如，93.3%的参与者容易受到电子邮件欺诈）方面非常有效。该框架在建立信任方面特别有效，有85%的目标在交互后愿意接受攻击者的电话。此外，我们还发现了诸如“有时人工”之类的局限性，这可能是由于真实感差距造成的。这项工作为AR-LLM驱动的社会工程攻击提供了概念验证，并为开发针对下一代增强现实威胁的防御对策提供了见解。