LLM2D

摘要

arXiv:2502.04951v1 安全类型：横跨摘要：大型语言模型（LLMs）的最近进步显著增强了人工智能驱动的搜索引擎（AIPSEs）的能力，通过集成外部数据库和预先存在的知识，提供精准和高效的响应。然而，我们观察到这些AIPSEs存在引用恶意内容或引用恶意网站的风险，导致有害或未经验证的信息传播。在本研究中，我们通过系统地定义威胁模型、风险级别以及评估各种查询类型响应的方式，第一次对七个生产AIPSEs进行了安全性风险量化。通过从PhishTank、ThreatBook和LevelBlue收集的数据，我们的发现揭示了即使在简单的查询（例如，包含良性关键词）下，AIPSEs也会频繁生成包含恶意URL的有害内容。我们还观察到，直接查询URL会增加风险级别，而使用自然语言查询则可以减轻这种风险。我们进一步对在线文档伪造和网络钓鱼进行了两个案例研究，以展示在实际场景下欺骗AIPSEs的容易程度。为了缓解这些风险，我们开发了一种基于代理的防御措施，其中包括基于GPT-4o的内容精炼工具和基于XGBoost的URL检测器。我们的评估表明，我们的防御措施可以有效地降低风险，但会以减少可用信息为代价。我们的研究强调了在AIPSEs中实施坚实的安全措施的迫切需求。