LLM2D

摘要

二元分类任务中的类别不平衡问题仍然是机器学习领域的一大挑战，它往往会导致对少数类别的性能低下。本研究全面评估了三种广泛使用的处理类别不平衡的策略：合成少数类过采样技术（SMOTE）、类别权重调整和决策阈值校准。我们将这些方法与 15 种不同的机器学习模型和来自不同领域的 30 个数据集的无干预基线场景进行了比较，总共进行了 9,000 次实验。性能主要使用 F1 分数进行评估，但我们的研究还跟踪了其他 9 个指标的结果，包括 F2 分数、精确率、召回率、Brier 分数、PR-AUC 和 AUC。我们的结果表明，所有三种策略通常都优于基线，其中决策阈值校准成为最一致有效的技术。然而，我们观察到不同数据集之间最佳性能方法存在很大差异，这突出了针对特定问题测试多种方法的重要性。本研究为处理不平衡数据集的从业人员提供了宝贵的见解，并强调了在评估类别不平衡处理技术时需要进行特定于数据集的分析。