LLM2D

摘要

尽管长上下文大型语言模型 (LLM) 在技术上可以总结长达书籍长度的文档（>100K 个词元），但文档的长度和复杂性迄今为止阻碍了对输入依赖性方面的评估，例如忠实度。在本文中，我们对 LLM 生成的虚构书籍摘要的忠实度和内容选择进行了首次大规模人工评估。我们的研究通过专注于 2023 年或 2024 年出版的书籍摘要来缓解数据污染问题，我们聘请了在标注任务之前完整阅读过每本书的标注员，以最大程度地降低成本和认知负担。我们收集了 FABLES，一个包含对 26 本书的 LLM 生成的摘要中 3158 个断言的标注数据集，成本为 5.2K 美元，这使我们能够根据忠实度对 LLM 摘要器进行排名：Claude-3-Opus 明显优于所有闭源 LLM，而开源 Mixtral 与 GPT-3.5-Turbo 相当。对标注的分析表明，大多数不忠实的断言与事件和角色状态有关，并且通常需要对叙述进行间接推理才能使其无效。虽然基于 LLM 的自动评分器在其他环境中已被证明在事实性和连贯性方面是可靠的，但我们实施了几个 LLM 忠实度评分器，发现没有一个与人工标注高度相关，尤其是在检测不忠实的断言方面。我们的实验表明，检测不忠实的断言不仅对于摘要评估是一个重要的未来方向，而且也是长上下文理解的测试平台。最后，我们超越了忠实度，探索了书籍长度摘要中的内容选择错误：我们开发了一种与关键叙述元素相关的遗漏错误类型，并还确定了对书籍结尾发生的事件的系统性过度强调。