摘要
近年来,研究表明将强化学习 (RL) 与移动目标防御 (MTD) 相结合可以增强物联网 (IoT) 设备的网络安全。然而,现有工作的实用性受到 RL 中集中数据处理带来的数据隐私问题以及学习有效应对日益增多的异构零日攻击的 MTD 技术所需时间的限制。因此,本文提出 CyberForce,这是一个将联邦学习和强化学习 (FRL) 相结合的框架,用于协作和私密地学习适合于减轻零日攻击的 MTD 技术。CyberForce 集成了设备指纹识别和异常检测,以奖励或惩罚由基于 FRL 的代理选择的 MTD 机制。该框架已部署并在一个场景中进行评估,该场景包含十个受异构恶意软件样本影响的真实 IoT 平台的物理设备。一系列实验表明,CyberForce 比现有的基于 RL 的集中式方法更快地学习了减轻每种攻击的 MTD 技术。此外,当各种设备暴露于不同的攻击时,CyberForce 能够从知识转移中获益,与最近的研究相比,性能得到增强,学习时间也减少。最后,在代理学习过程中使用的不同聚合算法使 CyberForce 对恶意攻击具有显著的鲁棒性。