LLM2D

摘要

本文提出一个用于评估和验证生成式语言模型（GLM），特别是用于银行等高风险领域的检索增强生成（RAG）系统的全面框架。由于GLM输出开放且质量评估主观，因此其评估极具挑战性。利用RAG系统基于预定义文档集合生成响应的结构化特性，我们提出了人类校准自动化测试（HCAT）框架。HCAT 集成了 a) 基于分层抽样的自动化测试生成；b) 基于嵌入的度量方法，用于对功能性、风险和安全属性进行可解释性评估；以及 c) 两阶段校准方法，通过概率校准和一致性预测将机器生成的评估与人工判断对齐。此外，该框架还包括鲁棒性测试，以评估模型在对抗性、分布外和不同输入条件下的性能，并使用边缘分析和双变量分析识别目标弱点，以查明需要改进的具体领域。这个经过人类校准的多层评估框架提供了一种可扩展、透明且可解释的GLM评估方法，为在准确性、透明度和法规遵从性至关重要的应用中部署GLM提供了实用可靠的解决方案。