LLM2D

摘要

arXiv:2504.03783v2 宣告类型: replace-cross 摘要：联邦主动学习（FAL）已发展成为一种有希望的框架，可在保持数据隐私的情况下利用分布式客户端大量未标记的数据。然而，现实世界的应用仍然受到高昂的标注成本和沟通密集型采样过程的限制，特别是在跨孤岛设置中，当客户端拥有大量本地数据集时。本文探讨了关键问题：在最小化标注员努力的情况下，如何降低循环式人类在环学习中的通信成本？现有的FAL方法通常依赖于迭代的标注过程，将主动采样与联邦更新分离，导致多次昂贵的通信和标注轮次。对此，我们提出了一种双阶段FAL框架FAST，该框架在初步阶段利用基础模型进行弱标注，随后在专注于最具不确定性的样本的改进阶段进行改进。通过利用基础模型的知识表示，并将改进步骤整合到紧凑的工作流程中，FAST显著减少了循环式主动采样带来的开销。在医疗和自然图像 Benchmarks 上的广泛实验表明，在受限制的 5% 标注预算下，FAST 在通信轮次减少了八倍的同时，平均性能优于现有 FAL 方法 4.36%。