LLM2D
如果仅仅需要检索,就真的需要长文本上下文吗?迈向真正困难的长文本上下文自然语言处理
Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP
作者: Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.00402v3

摘要

语言模型能力的提升推动了其应用向更长的上下文方向发展,使得长上下文评估和开发成为一个活跃的研究领域。然而,许多不同的用例被归类为“长上下文”这一笼统的术语,仅仅通过模型输入的总长度来定义,例如,包括“大海捞针”任务、书籍摘要和信息聚合。鉴于这些任务的难度各异,在这篇立场文件中,我们认为,将不同的任务混淆为“长上下文”是不可取的。作为一个研究群体,我们需要更精确的词汇来理解是什么使长上下文任务相似或不同。我们建议根据使长上下文任务更难的属性来拆解长上下文的分类。我们提出了两个正交的难度轴:(I) 扩散:在上下文中找到必要信息有多难?(II) 范围:需要找到多少必要信息?我们对长上下文文献进行了调查,为这种分类作为一种信息性描述提供了理由,并根据这种分类对文献进行了定位。我们得出结论,最困难、最有趣的设置,其必要信息非常长并且在输入中高度分散,是严重缺乏探索的。通过使用描述性词汇并讨论长上下文中相关难度的属性,我们可以在这个领域进行更明智的研究。我们呼吁仔细设计具有明显长上下文的任务和基准,同时考虑使其在质量上区别于短上下文的特征。