LLM2D

摘要

数据增强是深度学习中的一个基石技术，对于提高模型性能至关重要，尤其是在标签数据稀缺的情况下。虽然传统技术有效，但它们依赖于手工方法，限制了其在不同数据类型和任务中的适用性。尽管现代可学习增强方法提供了更高的适应性，但它们计算成本高昂，并且难以融入流行的增强工作流程。在这项工作中，我们提出了一种新颖且高效的数据增强方法，有效地弥合了现有增强策略与新兴数据集和学习任务之间的差距。我们引入了 SAFLEX（通过特征标签外推的自适应增强），它使用专门设计的有效双层优化算法，学习由任何给定上游增强管道提供的增强样本的样本权重和软标签。值得注意的是，SAFLEX 以微不足道的计算成本有效地减少了上游增强管道的噪声和标签错误。作为一种多功能模块，SAFLEX 在各种数据集（包括自然图像、医学图像和表格数据）中表现出色，展示了其在少样本学习和分布外泛化方面的强大能力。SAFLEX 可以无缝地与常见的增强策略（如 RandAug、CutMix）以及来自大型预训练生成模型（如稳定扩散）的增强策略集成，并且还与 CLIP 的微调等框架兼容。我们的研究结果突出了将现有增强管道适应新数据类型和任务的潜力，预示着向更具适应性和弹性的训练框架迈进。