LLM2D

摘要

arXiv:2402.04676v3 宣布类型: 替换-交叉摘要：数据集蒸馏（DD）作为一种广泛采用的技术，已经出现了，它用于构建一个合成数据集，捕捉训练数据集中的核心信息，从而促进准确的神经模型的训练。它的应用遍及各个领域，包括迁移学习、联邦学习和神经架构搜索。构建合成数据的最流行方法依赖于训练模型与合成数据集和训练数据集收敛属性的匹配。然而，使用经验损失作为标准应该被视为辅助手段，如同训练集是总体分布的近似替代品那样，后者才是我们关心的数据。尽管这种方法非常流行，但仍然未被探索的一个方面是数据集蒸馏与泛化之间的关系，特别是跨不常见子群的情况。也就是说，我们如何确保在训练数据集上训练的模型在面对低人口密度区域的样本时表现良好？在这种情况下，数据集的代表性与覆盖率比确保推理时的训练误差更为重要。从分布鲁棒优化中汲取灵感，我们提出了一种结合聚类与损失上的风险度量最小化的方法来进行数据集蒸馏。我们为我们的方法提供了理论依据，并通过数值实验证明了它在子群中的有效泛化能力和鲁棒性。源代码可在 https://github.com/Mming11/RobustDatasetDistillation 获取。