LLM2D

摘要

近年来，研究表明将强化学习 (RL) 与移动目标防御 (MTD) 相结合可以增强物联网 (IoT) 设备的网络安全。然而，现有工作的实用性受到 RL 中集中式数据处理带来的数据隐私问题以及学习针对日益增多的异构零日攻击的有效 MTD 技术所需的不理想时间限制。因此，本文提出了 CyberForce，这是一个将联邦学习和强化学习 (FRL) 相结合的框架，用于协作且私密地学习适合减轻零日攻击的 MTD 技术。CyberForce 集成了设备指纹识别和异常检测，以奖励或惩罚由基于 FRL 的代理选择的 MTD 机制。该框架已部署并在一个场景中进行了评估，该场景包含十个受异构恶意软件样本影响的真实物联网平台的物理设备。一组实验表明，CyberForce 比现有的基于 RL 的集中式方法更快地学习到减轻每种攻击的 MTD 技术。此外，当各种设备暴露于不同的攻击时，CyberForce 从知识转移中获益，与最近的工作相比，性能得到增强，学习时间减少。最后，在代理学习过程中使用的不同聚合算法使 CyberForce 对恶意攻击具有显着的鲁棒性。