摘要
大型语言模型(LLMs)如 GPT 和 LLaMA 家族,在处理海量信息时,长文本摘要变得至关重要,但由于缺乏开源训练数据集以及对上下文细节处理的高要求,这一任务对它们来说仍然充满挑战。为了解决这个问题,我们设计了一个新颖的零样本迁移学习框架,简称 T3,该框架通过在辅助任务上迭代训练一个基线 LLM 来实现目标任务的训练,其中辅助任务应拥有更丰富的数据资源,并与目标任务在结构或语义上具有相似性。在实践中,T3 通过利用问答作为辅助任务来处理长文本摘要任务,并在 BBC 摘要、NarraSum、FairytaleQA 和 NLQuAD 数据集上进一步验证了其有效性,与三个基线 LLM 相比,ROUGE 提高了近 14%,BLEU 提高了 35%,Factscore 提高了 16%,这表明它在更多辅助-目标任务组合中的潜力。