LLM2D

摘要

本研究提出了一种新颖的强化学习 (RL) 模型，用于优化网络安全事件响应期间的恶意软件取证调查。该模型旨在通过减少误报并使现有做法适应不断变化的恶意软件特征来提高取证调查效率。提出的 RL 框架利用 Q 学习和马尔可夫决策过程 (MDP) 等技术来训练系统识别实时内存转储中的恶意软件模式，从而实现取证任务的自动化。RL 模型基于详细的恶意软件工作流程图，该图指导使用静态和行为技术以及机器学习算法分析恶意软件工件。此外，它旨在通过确保取证证据的准确性来解决英国司法系统中的挑战。我们在受控环境中进行测试和评估，使用在 Windows 操作系统上创建的数据集来模拟恶意软件感染。实验结果表明，与传统方法相比，RL 提高了恶意软件检测率，RL 模型的性能因环境的复杂性和学习率而异。研究得出结论，虽然 RL 为恶意软件取证自动化提供了有希望的潜力，但其在不同恶意软件类型中的有效性需要不断改进奖励系统和特征提取方法。