LLM2D

摘要

arXiv:2502.06909v1 宣告类型：交叉摘要：工业元宇宙利用工业互联网（IIoT）整合各种设备的数据，并通过联邦学习和元计算在分布式方式下训练模型，同时确保数据隐私。为实现工业元宇宙的沉浸式体验，需要在模型质量和培训延迟之间维持平衡。由此，联邦学习任务中的主要挑战是通过平衡模型质量和培训延迟来优化整体系统性能。本文设计了一个满意度函数，该函数考虑了数据量、信息时效性（AoI）和培训延迟。此外，将满意度函数融入到服务器和节点的效用函数中，以激励节点参与模型训练。我们将服务器和节点的效用函数建模为两阶段斯塔克尔伯格博弈，并采用深度强化学习方法学习斯塔克尔伯格均衡。这种方法确保了奖励的平衡，并增强了激励方案在工业元宇宙中的适用性。模拟结果表明，在相同的预算约束下，所提出激励方案在不牺牲模型准确性的情况下，相比现有方案提升了至少23.7%的效用。