摘要
我们提出了一种易于计算、与语言无关的基于信息论的度量方法PPLqa,用于以无监督的方式衡量生成式大型语言模型 (LLM) 响应的质量,无需真实标签或人工监督。该方法和度量标准使用户能够根据响应质量对生成式语言模型进行排序,从而为特定任务选择最佳模型。我们的单一指标采用一种方法来评估LLM,该方法包含但不显式基于连贯性和流畅性(写作质量)以及与查询的相关性和一致性(响应的适当性)。PPLqa 的性能与其他相关指标一样好,并且在长篇问答中表现更好。因此,PPLqa 使得能够绕过真实标签评估所需的冗长标注过程,并且它也与人工和LLM 排名高度相关。