LLM2D
面向信用评分的类不平衡感知自适应数据集蒸馏以实现可扩展的预训练模型
Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring
作者: Xia Li, Hanghang Zheng, Xiao Chen, Hong Liu, Mao Mao
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.10677v2

摘要

arXiv:2501.10677v2 宣告类型: replace-cross 摘要:人工智能的发展显著提升了信用评分技术。尽管先进的深度学习模型具有显著的效果,但由于其在表格型数据上稳健的预测性能,主流应用依旧偏好树状结构模型。尽管预训练模型已有显著发展,但在金融领域的应用主要集中在问答任务上,且对于表格结构的信用评分数据集,使用预训练模型的研究仍然相对较少。面向表格的数据大模型(如TabPFN)使得大模型在信用评分中的应用成为可能,尽管其处理样本数量有限。本论文提供了一种新颖的框架,将面向表格的数据集蒸馏技术与预训练模型相结合,为TabPFN提供了可扩展性。此外,尽管金融数据集中类别不平衡的现象普遍存在,但其在数据集蒸馏过程中的影响尚未被探讨。因此,我们在数据集蒸馏过程中结合了类别不平衡的意识技术,从而在金融数据集上(例如AUC提升了2.5%)获得了改进的表现。本研究提出了一种在金融表格数据集上扩展大型预训练模型应用的新框架,并对类别不平衡在数据集蒸馏过程中的影响进行了比较性分析。我们认为这种方法可以扩大大型模型在金融领域的应用和下游任务。