LLM2D

摘要

arXiv:2409.19075v4 宣布类型：替换-交叉摘要：元学习已被广泛用于利用富含资源的源任务来提高低资源目标任务的性能。不幸的是，大多数现有的元学习方法将不同的源任务平等对待，忽视了源任务与目标任务在知识转移方面的相关性。为了解决这一问题，我们提出了一种基于强化学习的多源元转移学习框架（Meta-RTL），用于低资源常识推理。在该框架中，我们提出了一种基于强化学习的方法，用于动态估计源任务权重，这些权重衡量相应任务在元转移学习中对目标任务的贡献。采样的目标数据上的元特定时序模型的通用损失与任务特定损失之间的差异被作为奖励输入到强化学习模块的策略网络中。策略网络基于LSTMs构建，可以捕获元学习迭代过程中源任务权重估计的长期依赖关系。我们使用BERT和ALBERT作为元模型的主干，在三个常识推理基准数据集上评估了提出的Meta-RTL。实验结果表明，Meta-RTL显着优于强大的基线方法和先前的任务选择策略，并在极度低资源设置中实现了更大的改进。