摘要
arXiv:2410.21060v2 类型: replace-cross
摘要: 在网络威胁情报(CTI)报告、安全文章和新闻中的文本描述是关于网络安全威胁的重要知识来源,对于组织了解迅速演变的威胁态势至关重要。然而,目前的CTI知识提取方法缺乏灵活性和普适性,经常导致知识提取不准确或不完整。语法解析依赖于固定规则和词典,而模型微调需要大规模注释数据集,使得这两种方法难以适应新威胁和本体。为了解决这一问题,我们提出了一种名为CTINexus的新颖框架,利用优化的上下文学习(ICL)技术,通过少量数据高效地进行CTI知识提取和高质量的网络安全知识图谱(CSKG)构建。与现有方法不同,CTINexus既不需要大量的数据也不需要参数调整,可以通过少量标注示例适应各种本体。这一目标是通过以下方式实现的:(1) 设计了一种仔细规划的自动提示构建策略,以最优的示范检索来提取广泛的安全实体和关系;(2) 采用层次实体对齐技术,规范提取的知识并消除冗余;(3) 使用长距离关系预测技术进一步通过填补缺失的链接来完成CSKG。通过在来自10个平台的150份真实CTI报告上的广泛评估,我们展示了CTINexus在构建准确且完整的CSKG方面显著优于现有方法,强调了其通过高效的、适应性强的解决方案解决动态威胁态势的潜力。