LLM2D

摘要

arXiv:2410.08437v3 宣告类型: 替换摘要: 本文提出了AutoEval，这是一个新型基准，用于衡量大型语言模型（LLM）在翻译和逻辑推理等具有明确正确性概念的形式任务中的扩展能力。AutoEval 是第一个提供在无需人工标注的情况下扩展对 LLMs 的客观评估的关键优势的基准框架：(a) 能够通过自动生成不同难度级别的任务来评估日益复杂的 LLMs；(b) 能自动生成基准数据，从而消除对昂贵且耗时的人工标注的依赖；(c) 使用自动生成且随机化的数据集来减轻后续 LLMs 对许多当代基准中使用的静态数据集的过拟合能力。实证分析表明，一个LLM在AutoEval中的表现高度预测了它在其他关注翻译和推理任务的多样基准中的表现，使其成为一个有价值的自主评估框架，尤其是在难以获取和/或更新手编数据集的情况下。