LLM2D
通过大规模语言模型的数据合成与分析实现 scalable 和伦理化的内部威胁检测
Scalable and Ethical Insider Threat Detection through Data Synthesis and Analysis by LLMs
作者: Haywood Gelman, John D. Hastings
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2502.07045v2

摘要

arXiv:2502.07045v2 宣告类型:替换-交叉 摘要:内部威胁在组织中的影响力远超其人数所应有的程度,这主要是由于内部人员对系统、信息和基础设施的内部访问权限。例如,匿名用户提供基于网络的职业搜索网站评论,这种行为对组织构成了内部威胁的风险。此类风险信号可能存在于公开的职业搜索网站评论的匿名提交中。本研究探讨了大型语言模型(LLMs)在分析和检测职业网站评论中的内部威胁情绪方面的潜力。为解决伦理的担忧数据收集问题,本研究利用LLMs生成合成数据,结合现有的职业评论数据集。对生成的语氧行为评分与专家人工评分进行了对比分析。研究结果表明,在大多数情况下,LLMs与人工评价表现出一致,从而有效地识别出威胁情绪的细微指标。在人类生成的数据上的表现低于合成数据,这表明在评估真实世界数据方面仍有改进空间。文本多样性分析发现,人类生成的数据集和LLM生成的数据集之间存在差异,且合成数据的多样性略低。总体而言,结果表明LLMs在内部威胁检测中的应用潜力,并通过克服与数据收集相关的伦理和后勤障碍,提供了一个可扩展的内部情绪测试解决方案。