LLM2D

摘要

大型语言模型（LLMs）如 GPT 和 LLaMA 家族，在处理海量信息时，长文本摘要变得至关重要，但由于缺乏开源训练数据集以及对上下文细节处理的高要求，这一任务对它们来说仍然充满挑战。为了解决这个问题，我们设计了一个新颖的零样本迁移学习框架，简称 T3，该框架通过在辅助任务上迭代训练一个基线 LLM 来实现目标任务的训练，其中辅助任务应拥有更丰富的数据资源，并与目标任务在结构或语义上具有相似性。在实践中，T3 通过利用问答作为辅助任务来处理长文本摘要任务，并在 BBC 摘要、NarraSum、FairytaleQA 和 NLQuAD 数据集上进一步验证了其有效性，与三个基线 LLM 相比，ROUGE 提高了近 14%，BLEU 提高了 35%，Factscore 提高了 16%，这表明它在更多辅助-目标任务组合中的潜力。