LLM2D

摘要

arXiv:2504.21152v1 宣布类型: 横跨领域摘要：不平衡回归是指目标变量分布偏斜的预测任务。这种偏斜阻碍了机器学习模型，尤其是神经网络，这些模型倾向于集中在密集区域，因此在欠代表（少数）样本上表现较差。尽管这个问题非常重要，但只有少数方法被提出用于不平衡回归。许多现有的不平衡回归解决方案通过将类不平衡领域的技术，如线性插值和添加高斯噪声，应用于稀疏区域以生成合成数据。然而，在许多情况下，数据的潜在分布是复杂的和非线性的。因此，这些方法生成的合成样本无法准确反映真实的特征-目标关系。为克服这些局限性，我们提出SMOGAN，一种两阶段的过采样框架用于不平衡回归。在第一阶段，现有的过采样器在稀疏的目标区域生成初始合成样本。在第二阶段，我们引入DistGAN，一种基于分布的生成对抗网络，作为SMOGAN的筛选层，并通过对抗损失和最大均值偏差目标相结合进行这些样本的精细化处理，使它们与真实的特征-目标联合分布对齐。对23个不平衡数据集的广泛实验表明，SMOGAN在不使用DistGAN筛选层的情况下，始终优于默认的过采样方法。