LLM2D
训练大型语言模型以进行高级错链检测
Training Large Language Models for Advanced Typosquatting Detection
作者: Jackson Welch
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22406v1

摘要

arXiv:2503.22406v1 宣传类型: 横跨 摘要: 泰普斯夸特是一种长期存在的网络威胁,它利用人们在输入网址时的错误来欺骗用户、分发恶意软件并进行网络钓鱼攻击。随着域名数量和新的顶级域名(TLDs)的增多,泰普斯夸特技术变得越来越复杂,对个人、企业和国家网络安全基础设施构成了显著风险。传统的检测方法主要集中在已知的冒名顶替模式上,留下了识别更复杂攻击的空白。本研究介绍了一种新的方法,利用大型语言模型(LLLs)来增强泰普斯夸特的检测。通过训练一个大型语言模型在字符级转换和基于模式的启发式方法上,而不是特定领域的数据,形成了一个更灵活且更具韧性的检测机制。实验结果表明,当适当微调时,Phi-4 14B模型的表现优于其他测试模型,仅使用几千个训练样本就达到了98%的准确率。本研究突显了大语言模型在网络安全应用中的潜在价值,特别是减轻基于域名的欺骗手段,并提供了优化机器学习策略以进行威胁检测的见解。