LLM2D

摘要

arXiv:2409.19075v3 公告类型: replace-cross 摘要：元学习已被广泛用于利用富资源源任务来提高低资源目标任务的性能。不幸的是，现有的大多数元学习方法都同等对待不同的源任务，忽略了源任务与目标任务的相关性在知识迁移中的作用。为了解决这一问题，我们提出了一种基于强化学习的多源元迁移学习框架（Meta-RTL），以提高低资源常识推理的任务表现。在该框架中，我们提出了一种基于强化学习的方法，动态估计源任务权重，衡量相应任务对目标任务在元迁移学习中的贡献。从采样的目标数据上，元模型的通用损失与特定于源任务的临时元模型的特定任务损失之间的差异被作为奖励输入到强化学习模块的策略网络中。策略网络基于LSTM构建，能够捕捉元学习迭代过程中源任务权重估计的长期依赖性。我们使用BERT和ALBERT作为元模型的主干，分别在三个常识推理基准数据集上评估了提出的Meta-RTL。实验结果表明，Meta-RTL不仅显著优于强基线和之前的任务选择策略，在极端低资源设置上也实现了更大的改进。