LLM2D

摘要

arXiv:2501.10868v2 宣告类型: 交叉替代摘要：可靠地生成结构化输出已经成为现代语言模型（LM）应用中的一项关键能力。约束解码已经成为了各个行业中在生成过程中强制执行结构化输出的主导技术。尽管其普及程度不断提高，但在系统的评估约束解码的行为和性能方面却鲜有进展。约束解码框架已经基于JSON Schema标准化了结构化数据格式，在大多数情况下，给定一个模式，可以保证约束合规。然而，对实践中方法的有效性理解不足。我们提出了一种评估框架，以从三个关键维度评估约束解码方法：生成合规输出的效率、覆盖多种类型的约束、以及生成输出的质量。为了促进这一评估，我们引入了JSONSchemaBench，一个由10,000个现实世界的JSON模式组成的基准，这些模式涵盖了各种复杂程度的广泛约束。我们使用现有的官方JSON Schema Test Suite配对基准，并评估了六个最先进的约束解码框架，包括Guidance、Outlines、Llamacpp、XGrammar、OpenAI和Gemini。通过广泛的实验，我们获得了关于使用现实世界的JSON模式进行结构化生成的约束解码的能力和局限性的见解。我们的工作提供了关于改进约束解码框架和结构化生成任务的具体见解，并为评估约束解码和结构化生成确立了新的标准。我们将在https://github.com/guidance-ai/jsonschemabench发布JSONSchemaBench。