LLM2D

摘要

欺诈是一种普遍的犯罪行为，其危害不仅限于经济损失，还会对受害者造成心理和身体上的伤害。在线通信技术的进步为在线欺诈在庞大的网络中蓬勃发展提供了条件，欺诈者越来越多地利用这些渠道进行欺骗。随着人工智能等技术的进步，人们越来越担心欺诈会利用深度伪造等复杂方法在网络钓鱼活动中进行大规模扩张，这些方法都是由 ChatGPT 等语言生成模型生成的。然而，人工智能在检测和分析在线欺诈方面的应用仍处于研究不足的阶段。我们对用于在线欺诈检测的人工智能和自然语言处理技术进行了系统性文献综述。该综述遵循 PRISMA-ScR 协议，其资格标准包括与在线欺诈的相关性、文本数据的利用和人工智能方法。我们筛选了 2457 篇学术记录，其中 350 篇符合我们的资格标准，并最终纳入了 223 篇。我们报告了用于分析各种在线欺诈类别的最先进的自然语言处理技术；训练数据源；构建的自然语言处理算法和模型；以及用于模型评估的性能指标。我们发现，目前关于在线欺诈的研究被划分为各种诈骗活动，并确定了研究人员关注的 16 种不同的欺诈行为。这份系统性文献综述增强了学术界对基于人工智能的在线欺诈检测方法的理解，并为政策制定者、执法部门和企业提供了防范此类活动的见解。我们得出结论，专注于特定诈骗缺乏泛化性，因为不同类型的欺诈需要多个模型。诈骗的不断演变限制了在过时数据上训练的模型的有效性。我们还发现了数据限制、训练偏差报告以及模型性能报告中指标的选择性呈现等问题，这些问题会导致模型评估中潜在的偏差。