LLM2D
T3:一种针对目标任务的助理任务迭代训练的全新零样本迁移学习框架
T3: A Novel Zero-shot Transfer Learning Framework Iteratively Training on an Assistant Task for a Target Task
作者: Xindi Tong, Yujin Zhu, Shijian Fan, Liang Xu
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17640v1

摘要

大型语言模型(LLMs)如 GPT 和 LLaMA 家族,在处理海量信息时,长文本摘要变得至关重要,但由于缺乏开源训练数据集以及对上下文细节处理的高要求,这一任务对它们来说仍然充满挑战。为了解决这个问题,我们设计了一个新颖的零样本迁移学习框架,简称 T3,该框架通过在辅助任务上迭代训练一个基线 LLM 来实现目标任务的训练,其中辅助任务应拥有更丰富的数据资源,并与目标任务在结构或语义上具有相似性。在实践中,T3 通过利用问答作为辅助任务来处理长文本摘要任务,并在 BBC 摘要、NarraSum、FairytaleQA 和 NLQuAD 数据集上进一步验证了其有效性,与三个基线 LLM 相比,ROUGE 提高了近 14%,BLEU 提高了 35%,Factscore 提高了 16%,这表明它在更多辅助-目标任务组合中的潜力。