LLM2D
HyperFlow:无梯度少样本微调模拟
HyperFlow: Gradient-Free Emulation of Few-Shot Fine-Tuning
作者: Donggyun Kim, Chanwoo Kim, Seunghoon Hong
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15323v1

摘要

arXiv:2504.15323v1 交叉类型: 摘要:尽管在少量样本学习中测试时微调是有益的,但在实时或资源受限的场景中,多次反向传播步骤可能会变得极其昂贵。为了解决这一局限,我们提出了一种方法,无需计算梯度即可模拟梯度下降,从而实现高效的测试时适应。具体来说,我们将梯度下降形式化为常微分方程(ODE)的欧拉离散化,并训练一个辅助网络,仅使用少量样本的支持集来预测任务条件下的漂移。然后,适应简化为简单的数值积分(例如,通过欧拉方法),仅需辅助网络的几次前向传递——不需要梯度或目标模型的前向传递。在使用Meta-Dataset和CDFSL基准测试跨域少量样本分类实验中,我们的方法在域外性能上显著优于未微调基线,同时内存成本仅为其6%,计算时间仅为标准微调的0.02%,因此在直接转移和完全微调方法之间建立了实践中的折衷方案。