LLM2D

摘要

arXiv:2504.03783v3 更新类型: 替换-交叉摘要：联邦主动学习（FAL）已发展成为一种有前景的框架，在不透明客户端之间利用大量未标记数据的同时保护数据隐私。然而，由于高注释成本和在跨孤岛设置中通信密集型的采样过程，实际部署仍然受到限制，尤其是在客户端拥有大量本地数据集的情况下。本文解决了关键问题：在最少注释员努力的情况下，如何减少循环中人类在环学习中的通信成本？现有的FAL方法通常依赖于迭代注释过程，将主动采样与联邦更新分开，导致多次昂贵的通信和注释轮次。为应对这一挑战，我们提出了FAST，这是一种两阶段的FAL框架，在第一阶段利用基础模型进行弱标注，第二阶段专注于最不确定的样本进行精炼。通过利用基础模型的知识表示，并在一整套工作流中集成精炼步骤，FAST显著降低了迭代主动采样带来的开销。在多种医学和自然图像基准测试上的广泛实验表明，在5%有限标注预算下，FAST相比现有的FAL方法平均提高了4.36%，通信轮次减少了八倍。