LLM2D

摘要

arXiv:2407.03387v3 宣告类型: replace-cross 摘要: 近期的工作表明，在零样本和少样本设置下的大规模语言模型（LLMs）在各种文本生成任务中难以理解自然语言约束。而在代码领域，广泛使用代码格式的约束来维护像JSON和YAML这样的域特定语言（DSLs）编写的代码的完整性，这些DSLs在企业级编程任务中被广泛使用。鉴于LLMs越来越多地用于企业级代码任务，评估它们是否能理解这些代码约束变得至关重要。然而，还没有任何工作评估它们在代码约束方面的可控性。因此，我们引入了ConCodeEval，这是一个首创的基准，包含五个表示形式下的两个新颖的代码约束任务。我们的研究表明，语言模型在处理代码约束方面存在困难。那些在常规代码任务中表现优异的代码语言，在表示精细粒度约束时表现不佳。