LLM2D

摘要

arXiv:2504.03783v1 宣告类型: cross 摘要：联邦主动学习（FAL）作为一种框架，旨在利用分布式客户端上的大量未标记数据，同时保持数据隐私，已经开始崭露头角。然而，在真实世界的部署中，由于高标注成本和耗时的采样过程，特别是在跨数据中心（cross-silo）设置中，当客户端拥有大量本地数据集时，这样的部署仍然受到限制。本文针对关键问题进行了探讨：在最小化标注员努力的情况下，如何减少人类参与的循环学习中的通信成本？现有的FAL方法通常依赖迭代标注过程，将主动采样与联邦更新分离，导致多次昂贵的通信和标注轮次。为应对这一挑战，我们提出了一种两阶段的FAL框架（FAST），第一阶段使用基础模型进行弱标注，第二阶段专注于最不确定的样本进行细化。通过利用基础模型的表示知识并将细化步骤整合到精简的工作流程中，FAST显著降低了循环主动采样的开销。实验结果表明，在受限的5%标注预算下，FAST在多种医疗和自然图像基准测试中平均优于现有FAL方法4.36%，同时通信轮次减少了八倍。