LLM2D

摘要

arXiv:2410.21060v2 类型: replace-cross 摘要: 在网络威胁情报(CTI)报告、安全文章和新闻中的文本描述是关于网络安全威胁的重要知识来源，对于组织了解迅速演变的威胁态势至关重要。然而，目前的CTI知识提取方法缺乏灵活性和普适性，经常导致知识提取不准确或不完整。语法解析依赖于固定规则和词典，而模型微调需要大规模注释数据集，使得这两种方法难以适应新威胁和本体。为了解决这一问题，我们提出了一种名为CTINexus的新颖框架，利用优化的上下文学习(ICL)技术，通过少量数据高效地进行CTI知识提取和高质量的网络安全知识图谱(CSKG)构建。与现有方法不同，CTINexus既不需要大量的数据也不需要参数调整，可以通过少量标注示例适应各种本体。这一目标是通过以下方式实现的：(1) 设计了一种仔细规划的自动提示构建策略，以最优的示范检索来提取广泛的安全实体和关系；(2) 采用层次实体对齐技术，规范提取的知识并消除冗余；(3) 使用长距离关系预测技术进一步通过填补缺失的链接来完成CSKG。通过在来自10个平台的150份真实CTI报告上的广泛评估，我们展示了CTINexus在构建准确且完整的CSKG方面显著优于现有方法，强调了其通过高效的、适应性强的解决方案解决动态威胁态势的潜力。