LLM2D

摘要

arXiv:2505.01307v1 安全类型：交叉摘要：安全关键软件评估需要针对复杂的监管框架进行稳健的评估，这一过程传统上受到手工评估的限制。本文提出了一种名为文档检索增强微调（DRAFT）的新方法，该方法增强了大型语言模型（LLM）在安全关键合规评估方面的能力。DRAFT 建立在现有的检索增强生成（RAG）技术之上，通过引入一种新的微调框架，适应我们的双检索架构，该架构可以同时访问软件文档和适用的参考标准。为了微调 DRAFT，我们开发了一种半自动的数据集生成方法，该方法结合了具有意义的干扰项的相关文档数量变化，以紧密模拟实际评估场景。使用 GPT-4o-mini 进行的实验显示，正确性比基线模型提高了 7%，并且在证据处理、响应结构和领域特定推理方面也取得了定性的改进。DRAFT 代表了一种实用的方法，可以在保持监管领域必不可少的透明性和基于证据的推理的同时，改进合规评估系统。