LLM2D
自主评估大语言模型在事实维护和推理任务中的表现
Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks
作者: Rushang Karia, Daniel Bramblett, Daksh Dobhal, Siddharth Srivastava
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2410.08437v3

摘要

arXiv:2410.08437v3 宣告类型: 替换 摘要: 本文提出了AutoEval,这是一个新型基准,用于衡量大型语言模型(LLM)在翻译和逻辑推理等具有明确正确性概念的形式任务中的扩展能力。AutoEval 是第一个提供在无需人工标注的情况下扩展对 LLMs 的客观评估的关键优势的基准框架:(a) 能够通过自动生成不同难度级别的任务来评估日益复杂的 LLMs;(b) 能自动生成基准数据,从而消除对昂贵且耗时的人工标注的依赖;(c) 使用自动生成且随机化的数据集来减轻后续 LLMs 对许多当代基准中使用的静态数据集的过拟合能力。实证分析表明,一个LLM在AutoEval中的表现高度预测了它在其他关注翻译和推理任务的多样基准中的表现,使其成为一个有价值的自主评估框架,尤其是在难以获取和/或更新手编数据集的情况下。