LLM2D
基于人工标定的生成式语言模型自动化测试与验证
Human-Calibrated Automated Testing and Validation of Generative Language Models
作者: Agus Sudjianto, Aijun Zhang, Srinivas Neppalli, Tarun Joshi, Michal Malohlava
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16391v1

摘要

本文提出一个用于评估和验证生成式语言模型(GLM),特别是用于银行等高风险领域的检索增强生成(RAG)系统的全面框架。由于GLM输出开放且质量评估主观,因此其评估极具挑战性。利用RAG系统基于预定义文档集合生成响应的结构化特性,我们提出了人类校准自动化测试(HCAT)框架。HCAT 集成了 a) 基于分层抽样的自动化测试生成;b) 基于嵌入的度量方法,用于对功能性、风险和安全属性进行可解释性评估;以及 c) 两阶段校准方法,通过概率校准和一致性预测将机器生成的评估与人工判断对齐。此外,该框架还包括鲁棒性测试,以评估模型在对抗性、分布外和不同输入条件下的性能,并使用边缘分析和双变量分析识别目标弱点,以查明需要改进的具体领域。这个经过人类校准的多层评估框架提供了一种可扩展、透明且可解释的GLM评估方法,为在准确性、透明度和法规遵从性至关重要的应用中部署GLM提供了实用可靠的解决方案。