LLM2D
FAST: 基于基础模型的联邦主动学习,用于高效通信的采样和训练
FAST: Federated Active Learning with Foundation Models for Communication-efficient Sampling and Training
作者: Haoyuan Li, Mathias Funk, Jindong Wang, Aaqib Saeed
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2504.03783v3

摘要

arXiv:2504.03783v3 更新类型: 替换-交叉 摘要:联邦主动学习(FAL)已发展成为一种有前景的框架,在不透明客户端之间利用大量未标记数据的同时保护数据隐私。然而,由于高注释成本和在跨孤岛设置中通信密集型的采样过程,实际部署仍然受到限制,尤其是在客户端拥有大量本地数据集的情况下。本文解决了关键问题:在最少注释员努力的情况下,如何减少循环中人类在环学习中的通信成本?现有的FAL方法通常依赖于迭代注释过程,将主动采样与联邦更新分开,导致多次昂贵的通信和注释轮次。为应对这一挑战,我们提出了FAST,这是一种两阶段的FAL框架,在第一阶段利用基础模型进行弱标注,第二阶段专注于最不确定的样本进行精炼。通过利用基础模型的知识表示,并在一整套工作流中集成精炼步骤,FAST显著降低了迭代主动采样带来的开销。在多种医学和自然图像基准测试上的广泛实验表明,在5%有限标注预算下,FAST相比现有的FAL方法平均提高了4.36%,通信轮次减少了八倍。