LLM2D

摘要

arXiv:2408.09639v2 宣告类型：替换-交叉摘要：语言模型（LMs）的句法知识通常通过语言最小对的方法进行测量，其中要求LMs对一组可接受和不可接受的句子进行判断，并比较它们对这些句子的接受程度。传统的做法是直接比较LMs分配的句子概率，但近年来的大规模语言模型（LLMs）则是通过提示进行训练执行任务，因此它们分配的原始概率可能不能完全反映它们的句法知识。本研究试图通过提示和模板从LLMs中提取更准确的接受度判断。通过在英语和汉语中的广泛应用实验，我们比较了九种判断方法，并发现其中两种方法，一种基于概率读取的方法——模板内概率（in-template LP）和一种基于提示的方法——是/否概率计算，其准确度高于传统的做法。我们的分析表明，这些方法在不同的语言现象中表现出色，暗示它们可以访问LLMs知识的不同方面。我们还发现，将这两种方法联合使用的效果优于单独使用。因此，我们建议这些技术，无论是单独使用还是联合使用，作为评估LLMs句法知识的更有效替代方法，相比传统的做法。