摘要
arXiv:2502.11578v1 类别: cross
摘要:大规模语言模型(LLMs)在自然语言生成方面取得了显著进步,但在要求精确计算和结构分析的任务中通常面临挑战。本文通过计算LIX可读性度量值和平均依赖距离(ADD),研究了最先进的LLMs在语言复杂度测量任务中的性能。使用瑞典高中和大学水平的论文,我们评估了模型在计算LIX得分和执行依存句法分析方面的能力,并将它们的结果与公认的基准进行了比较。我们的研究发现表明,尽管所有模型在这些任务上都存在一定的能力,但ChatGPT-o1-mini表现最为一致,在LIX计算和依存句法分析方面的准确性都是最高的。此外,我们观察到,计算LIX的准确性与模型在大规模多任务语言理解(MMLU)基准测试上的整体表现之间存在强烈的显著相关性(相关系数-0.875,p<0.026,N=6)。这些结果表明,语言复杂度测量能力可以作为评估LLMs通用能力的嘈杂的零样本代理,提供了一种无需大量基准测试数据集的模型评估实用方法。