LLM2D

摘要

语言模型能力的提升推动了其应用向更长的上下文方向发展，使得长上下文评估和开发成为一个活跃的研究领域。然而，许多不同的用例被归类为“长上下文”这一笼统的术语，仅仅通过模型输入的总长度来定义，例如，包括“大海捞针”任务、书籍摘要和信息聚合。鉴于这些任务的难度各异，在这篇立场文件中，我们认为，将不同的任务混淆为“长上下文”是不可取的。作为一个研究群体，我们需要更精确的词汇来理解是什么使长上下文任务相似或不同。我们建议根据使长上下文任务更难的属性来拆解长上下文的分类。我们提出了两个正交的难度轴：(I) 扩散：在上下文中找到必要信息有多难？(II) 范围：需要找到多少必要信息？我们对长上下文文献进行了调查，为这种分类作为一种信息性描述提供了理由，并根据这种分类对文献进行了定位。我们得出结论，最困难、最有趣的设置，其必要信息非常长并且在输入中高度分散，是严重缺乏探索的。通过使用描述性词汇并讨论长上下文中相关难度的属性，我们可以在这个领域进行更明智的研究。我们呼吁仔细设计具有明显长上下文的任务和基准，同时考虑使其在质量上区别于短上下文的特征。