LLM2D
ConCodeEval:评估针对领域特定语言中的代码约束的大语言模型
ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
作者: Mehant Kammakomati, Sameer Pimparkhede, Srikanth Tamilselvam, Prince Kumar, Pushpak Bhattacharyya
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2407.03387v3

摘要

arXiv:2407.03387v3 宣告类型: replace-cross 摘要: 近期的工作表明,在零样本和少样本设置下的大规模语言模型(LLMs)在各种文本生成任务中难以理解自然语言约束。而在代码领域,广泛使用代码格式的约束来维护像JSON和YAML这样的域特定语言(DSLs)编写的代码的完整性,这些DSLs在企业级编程任务中被广泛使用。鉴于LLMs越来越多地用于企业级代码任务,评估它们是否能理解这些代码约束变得至关重要。然而,还没有任何工作评估它们在代码约束方面的可控性。因此,我们引入了ConCodeEval,这是一个首创的基准,包含五个表示形式下的两个新颖的代码约束任务。我们的研究表明,语言模型在处理代码约束方面存在困难。那些在常规代码任务中表现优异的代码语言,在表示精细粒度约束时表现不佳。