LLM2D

摘要

arXiv:2410.11507v3 宣告类型: 替换摘要: 虽然已经开发出了各种垂直领域大型语言模型（LLMs），但在不同领域自动评估其性能仍然是一个关键挑战。当前基于基准的方法往往依赖于静态且昂贵的数据集，与实际用户需求不契合，并缺乏跨领域的灵活性。为了解决这些限制，我们重访了评估过程，并引入了两个关键概念：Benchmark+，它将传统的问答基准扩展为更具灵活性的“策略-标准”格式；以及Assessment+，它改进了交互过程，能够进行更深入的探索，并支持从更广泛的角度进行分析。我们提出了TestAgent，一种基于代理的评估框架，利用检索增强生成和强化学习实现了这些概念。TestAgent能够在多种垂直领域场景下实现自动动态基准生成和深入评估。从构造多个垂直领域评估到将静态基准转换为动态形式的任务实验结果证明了TestAgent的有效性。这项工作为LLMs自动评估提供了有趣的视角，并突显了一条动态和领域适应性评估的道路。