摘要
当前的长期上下文基准主要集中在基于检索的测试上,要求大型语言模型 (LLM) 在广泛的输入上下文中定位特定信息,例如针线 haystack (NIAH) 基准。长期上下文生成是指语言模型生成跨越长段落或文档的连贯且上下文准确文本的能力。虽然最近的研究表明在 NIAH 和其他基于检索的长期上下文基准测试中表现出色,但缺乏评估长期上下文生成能力的基准。为了弥合这一差距并提供全面的评估,我们引入了合成基准 LongGenBench,它允许灵活配置自定义生成上下文长度。LongGenBench 通过重新设计问题的格式并要求 LLM 以单个连贯的长期上下文答案进行响应,超越了传统的基准。通过使用 LongGenBench 进行广泛的评估,我们观察到:(1) API 访问和开源模型在长期上下文生成场景中表现出性能下降,范围从 1.2% 到 47.1%;(2) 不同系列的 LLM 表现出不同的性能下降趋势,Gemini-1.5-Flash 模型在 API 访问模型中表现出最小的下降,Qwen2 系列在 LongGenBench 中表现出最小的下降。