LLM2D
LongGenBench:长文本生成基准测试
LongGenBench: Long-context Generation Benchmark
作者: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.04199v2

摘要

当前的长文本基准测试主要关注基于检索的测试,要求大型语言模型 (LLM) 在广泛的输入上下文中定位特定信息,例如“大海捞针”(NIAH)基准测试。长文本生成是指语言模型生成连贯且上下文准确的文本的能力,这些文本跨越冗长的段落或文档。虽然最近的研究表明在 NIAH 和其他基于检索的长文本基准测试中表现出色,但缺乏评估长文本生成能力的基准测试。为了弥补这一差距并提供全面的评估,我们引入了一个综合基准 LongGenBench,它允许灵活配置自定义生成的上下文长度。LongGenBench 通过重新设计问题的格式并要求 LLM 以单个、连贯的长文本答案进行响应,超越了传统的基准测试。在使用 LongGenBench 进行广泛评估后,我们观察到:(1) API 访问和开源模型在长文本生成场景中的性能都下降,范围从 1.2% 到 47.1%;(2) 不同系列的 LLM 表现出不同的性能下降趋势,其中 Gemini-1.5-Flash 模型在 API 访问模型中表现出最小的下降,而 Qwen2 系列在 LongGenBench 中的开源模型中表现出最小的下降。