LLM2D

摘要

arXiv:2502.11578v1 类别: cross 摘要：大规模语言模型（LLMs）在自然语言生成方面取得了显著进步，但在要求精确计算和结构分析的任务中通常面临挑战。本文通过计算LIX可读性度量值和平均依赖距离（ADD），研究了最先进的LLMs在语言复杂度测量任务中的性能。使用瑞典高中和大学水平的论文，我们评估了模型在计算LIX得分和执行依存句法分析方面的能力，并将它们的结果与公认的基准进行了比较。我们的研究发现表明，尽管所有模型在这些任务上都存在一定的能力，但ChatGPT-o1-mini表现最为一致，在LIX计算和依存句法分析方面的准确性都是最高的。此外，我们观察到，计算LIX的准确性与模型在大规模多任务语言理解（MMLU）基准测试上的整体表现之间存在强烈的显著相关性（相关系数-0.875，p<0.026，N=6）。这些结果表明，语言复杂度测量能力可以作为评估LLMs通用能力的嘈杂的零样本代理，提供了一种无需大量基准测试数据集的模型评估实用方法。