LLM2D

摘要

元学习已被广泛用于利用资源丰富的源任务来提高资源匮乏的目标任务的性能。然而，大多数现有的元学习方法平等地对待不同的源任务，忽略了源任务与目标任务在知识转移中的相关性。为了解决这个问题，我们提出了一种基于强化学习的多源元迁移学习框架（Meta-RTL），用于低资源常识推理。在这个框架中，我们提出了一种基于强化学习的方法来动态估计源任务权重，该权重衡量了相应任务在元迁移学习中对目标任务的贡献。元模型的通用损失与源特定时间元模型在采样目标数据上的任务特定损失之间的差异被馈送到强化学习模块的策略网络中作为奖励。策略网络建立在 LSTMs 之上，它捕获了跨元学习迭代的源任务权重估计的长期依赖关系。我们使用 BERT 和 ALBERT 作为元模型的骨干，在三个常识推理基准数据集上评估了提出的 Meta-RTL。实验结果表明，Meta-RTL 在很大程度上优于强基线和以前的任务选择策略，并在极低资源设置中取得了更大的改进。