摘要
arXiv:2505.01307v1 安全类型:交叉
摘要:安全关键软件评估需要针对复杂的监管框架进行稳健的评估,这一过程传统上受到手工评估的限制。本文提出了一种名为文档检索增强微调(DRAFT)的新方法,该方法增强了大型语言模型(LLM)在安全关键合规评估方面的能力。DRAFT 建立在现有的检索增强生成(RAG)技术之上,通过引入一种新的微调框架,适应我们的双检索架构,该架构可以同时访问软件文档和适用的参考标准。为了微调 DRAFT,我们开发了一种半自动的数据集生成方法,该方法结合了具有意义的干扰项的相关文档数量变化,以紧密模拟实际评估场景。使用 GPT-4o-mini 进行的实验显示,正确性比基线模型提高了 7%,并且在证据处理、响应结构和领域特定推理方面也取得了定性的改进。DRAFT 代表了一种实用的方法,可以在保持监管领域必不可少的透明性和基于证据的推理的同时,改进合规评估系统。