LLM2D

摘要

arXiv:2402.15537v3 通知类型: replace-cross 摘要：电子邮件在专业和商业领域仍然是一个至关重要且广泛使用的通信媒介。然而，垃圾邮件的盛行对用户构成了重大挑战，扰乱了他们的日常工作并降低了生产力。因此，基于内容准确识别和过滤垃圾邮件已成为网络安全的重要方面。最近在自然语言处理方面的进展，尤其是大型语言模型ChatGPT，在问答和文本生成任务中展现了出色的表现。然而，其在垃圾邮件识别方面的潜力尚未得到充分开发。为填补这一空白，本研究尝试评估ChatGPT在英文和中文电子邮件数据集中的垃圾邮件识别能力。我们使用在上下文学习中应用ChatGPT进行垃圾邮件检测，这需要带有（或不带）一些示例的提示指令。我们还研究了提示中示例的数量如何影响ChatGPT的性能。为了进行对比，我们还实现了五种流行的基准方法，包括朴素贝叶斯、支持向量机（SVM）、逻辑回归（LR）、前馈密集神经网络（DNN）和BERT分类器。通过大量实验，ChatGPT在大型英文数据集中的表现远逊于深度监督学习方法，但在资源有限的中文数据集上表现出优越的性能。本研究为ChatGPT在垃圾邮件识别方面的潜力和局限性提供了见解，并强调了其在资源受限的语言领域作为可行解决方案的前景。