摘要
arXiv:2504.03302v1 交叉类型: cross
摘要:大语言模型(LLMs)经常生成不准确或误导性的内容幻觉。为了解决这一挑战,我们引入了Noise-Augmented Fine-Tuning(NoiseFiT)这一新颖框架,它利用基于信噪比(SNR)的自适应噪声注入来提升模型的稳健性。特别是,NoiseFiT选择性地对标识为高SNR(更具鲁棒性)或低SNR(可能欠正则化)的层进行动态放大高斯噪声的扰动。我们还提出了一种结合标准交叉熵、软交叉熵和一致性正则化的混合损失,以确保在嘈杂的训练条件下提供稳定且准确的输出。我们的理论分析表明,自适应噪声注入是无偏且方差保持的,提供了期望收敛的强保证。在多个测试和基准数据集上的实证结果表明,NoiseFiT显著降低了幻觉率,经常在关键任务上改进或匹配基础模型的性能。这些发现突显了噪声驱动策略在无需承担高昂的计算开销的情况下实现鲁棒、可信赖的语言建模的潜力。鉴于我们实验的全面和详细性,我们已将微调日志、基准评估成果和源代码分别公开发布在W&B、Hugging Face和GitHub上,以促进进一步的研究、可访问性和可复现性。