LLM2D

摘要

arXiv:2502.16054v2 安全运营公告类型: 替换-交叉摘要：鉴于多租户云环境的复杂性以及对实时威胁缓解的不断增长需求，安全运营中心（SOCS）必须采用基于人工智能的自适应防御机制以应对高级持续性威胁（APTs）。然而，SOC分析师在处理自适应对手策略时面临挑战，需要智能的决策支持框架。我们提出了一种基于认知层次理论的深度Q网络（CHT-DQN）框架，该框架用于建模SOC分析师与基于人工智能的APT机器人之间的交互决策。SOC分析师（防御者）处于认知层次1，预测攻击者的策略，而APT机器人（攻击者）遵循层次0策略。通过将CHT纳入DQN，我们的框架利用基于攻击图（AG）的强化学习方法增强自适应SOC防御。在不同AG复杂性下的仿真实验表明，与标准DQN相比，CHT-DQN在数据保护方面表现出更高的效果，并且在行动差异方面也更小。理论下界进一步证实了其随着AG复杂性的增加而表现出的优越性。人类在环（HITL）评估中使用Amazon Mechanical Turk（MTurk）显示，使用CHT-DQN推断的转换概率的SOC分析师更接近于自适应攻击者，从而获得更好的防御结果。此外，人类行为符合前景理论（PT）和累积前景理论（CPT）：参与者更倾向于不重新选择失败的动作，而更倾向于坚持成功的行为。这种不对称性反映了增强的损失敏感性以及有偏的概率权重——在失败后低估收益，在持续成功中过度估计收益。我们的研究结果强调了将认知模型集成到深度强化学习中以改善云安全中的实时SOC决策的潜力。