摘要
arXiv:2408.09639v2 宣告类型:替换-交叉
摘要:语言模型(LMs)的句法知识通常通过语言最小对的方法进行测量,其中要求LMs对一组可接受和不可接受的句子进行判断,并比较它们对这些句子的接受程度。传统的做法是直接比较LMs分配的句子概率,但近年来的大规模语言模型(LLMs)则是通过提示进行训练执行任务,因此它们分配的原始概率可能不能完全反映它们的句法知识。本研究试图通过提示和模板从LLMs中提取更准确的接受度判断。通过在英语和汉语中的广泛应用实验,我们比较了九种判断方法,并发现其中两种方法,一种基于概率读取的方法——模板内概率(in-template LP)和一种基于提示的方法——是/否概率计算,其准确度高于传统的做法。我们的分析表明,这些方法在不同的语言现象中表现出色,暗示它们可以访问LLMs知识的不同方面。我们还发现,将这两种方法联合使用的效果优于单独使用。因此,我们建议这些技术,无论是单独使用还是联合使用,作为评估LLMs句法知识的更有效替代方法,相比传统的做法。