LLM2D

摘要

arXiv:2504.02901v1标签类型：交叉摘要：学习有噪声标签（LNL）是一种在收集的训练数据可能包含错误或损坏的标签的许多实际场景中出现的挑战。目前大多数现有解决方案识别出噪声标签，并采用主动学习向人类专家查询以进行去噪。在大规模语言模型（LLMs）时代，虽然我们可以减少人力以改进这些方法，但它们的表现仍然取决于能否准确地从噪声数据中分离出干净样本和噪声样本。在本文中，我们提出了一种基于主动学习的创新协作学习框架NoiseAL，以结合大规模语言模型和小型模型（SMs）进行学习有噪声标签。在协作训练过程中，我们首先采用两个SMs形成一个共预测网络，并提出一种动态增强阈值策略来将噪声数据分成不同的子集，然后从这些子集中选择干净和噪声样本，喂给主动标注的大规模语言模型以纠正噪声样本。最后，我们采用不同的优化目标来克服带有不同程度标签噪声的子集。在对合成和真实世界的噪声数据集进行广泛实验后，进一步证明了我们框架相较于最新的基线方法的优势。