LLM2D
F$^3$OCUS——基于多目标元启发式的联邦微调视觉-语言基础模型与最优客户端层更新策略
F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics
作者: Pramit Saha, Felix Wagner, Divyanshu Mishra, Can Peng, Anshul Thakur, David Clifton, Konstantinos Kamnitsas, J. Alison Noble
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2411.11912v2

摘要

arXiv:2411.11912v2 宣告类型: replace-cross 摘要: 在联邦学习(FL)中,在资源受限的客户端设备上有效地训练大型视觉语言模型(VLMs)需要使用参数高效调优(PEFT)策略。为此,我们展示了两个因素的影响:一是客户端特定的层重要性评分,该评分选择最适合调优的VLM层;二是客户端之间层多样性评分,该评分鼓励在客户端之间选择多样化的层以实现最佳VLM层选择。我们首先通过理论论证并利用逐层神经 tangent 核的主要特征值来证明其作为客户端特定层重要性评分的有效性。接着,我们提出了一种新的逐层更新策略,称为 F$^3$OCUS,该策略通过在服务器上采用无数据的多目标元启发式优化来同时优化层的重要性与多样性因素。我们探索了5种不同的元启发式算法,并将它们的有效性用于选择模型层和适配器层以实现PEFT-FL。此外,我们发布了一个新的MedVQA-FL数据集,包括707,962个VQA三元组和9种模态特定的客户端,并利用该数据集来训练和评估我们的方法。总体而言,我们在涉及58个医学图像数据集和4种不同大小的VLM架构的6种视觉语言FL任务设置中进行了超过10,000次客户端级实验,以证明所提出方法的有效性。