LLM2D
微调很好,如果经过校准
Fine-Tuning is Fine, if Calibrated
作者: Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.16223v2

摘要

微调可以说是将预训练模型(例如基础模型)调整到下游应用的最直接方法,但它也存在着丢失模型在预训练过程中学习到的宝贵知识的风险。例如,将能够识别大量类别的预训练分类器微调以掌握手头的类别子集,会导致模型在之前学习过的其他类别上的准确率急剧下降。因此,当微调后的模型遇到超出微调数据的类别时,很难进一步使用它。在本文中,我们系统地剖析了这个问题,旨在回答一个基本问题:“微调后的模型中哪些部分受到了损坏?”令我们惊讶的是,我们发现微调后的模型既没有忘记其他类别之间的关系,也没有降低识别这些类别的特征。相反,微调后的模型通常会为这些其他类别生成更具辨别性的特征,即使这些特征在微调过程中缺失!{真正影响准确率的是微调类别和其他类别之间的对数几率尺度差异},这意味着简单的后处理校准将恢复预训练模型的能力,同时揭示所有类别的特征改进。我们进行了广泛的实证研究,以证明我们发现的稳健性,并提供了对这些发现的初步解释,为未来的理论分析指明了新的方向。我们的代码可在 https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated 获取。