LLM2D

摘要

当前的长文本基准测试主要关注基于检索的测试，要求大型语言模型 (LLM) 在广泛的输入上下文中定位特定信息，例如“大海捞针”（NIAH）基准测试。长文本生成是指语言模型生成连贯且上下文准确的文本的能力，这些文本跨越冗长的段落或文档。虽然最近的研究表明在 NIAH 和其他基于检索的长文本基准测试中表现出色，但缺乏评估长文本生成能力的基准测试。为了弥补这一差距并提供全面的评估，我们引入了一个综合基准 LongGenBench，它允许灵活配置自定义生成的上下文长度。LongGenBench 通过重新设计问题的格式并要求 LLM 以单个、连贯的长文本答案进行响应，超越了传统的基准测试。在使用 LongGenBench 进行广泛评估后，我们观察到：(1) API 访问和开源模型在长文本生成场景中的性能都下降，范围从 1.2% 到 47.1%；(2) 不同系列的 LLM 表现出不同的性能下降趋势，其中 Gemini-1.5-Flash 模型在 API 访问模型中表现出最小的下降，而 Qwen2 系列在 LongGenBench 中的开源模型中表现出最小的下降。