LLM2D

摘要

arXiv:2502.13171v1 类别: cross 摘要: 钓鱼攻击是当今最常见的网络攻击类型，被公认为导致重大数据泄露事件的主要来源，对个人和企业都产生了重大影响。基于Web的钓鱼攻击最为频繁，其攻击向量包括社交媒体帖子和包含指向钓鱼网址的链接的电子邮件，一旦点击这些链接，便会使宿主系统面临更严重的攻击。检测钓鱼网址的研究努力已经涉及使用监督学习技术，这些技术需要大量数据来训练模型，并具有高计算要求。它们还涉及到从电子邮件内容中提取的特征分析，影响用户隐私。此外，它们在面对威胁演变时缺乏弹性，尤其是在生成AI技术出现后，这些技术能够绕过这些系统，如AI生成的钓鱼网址。过去，无监督方法如聚类技术也用于钓鱼检测，但有时由于使用成对比较而不具备可扩展性。它们在检测钓鱼活动时缺乏较高的检测率。在本文中，我们提出了一种无监督学习方法，不仅快速而且可扩展，因为它不涉及成对比较。该方法能够一次性检测整个活动，并保持较高的检测率，同时保护用户隐私；这包括最近由恶意实体使用生成AI技术创建的定向钓鱼网址的活动提升。