LLM2D

摘要

arXiv:2404.11960v3 通知类型: 替换-交叉摘要：最近的点wise大型语言模型（LLM）排名器取得了显著的排名结果。然而，这些排名器受到了两大主要缺陷的限制：（1）在排名过程中未能遵循标准化的比较指导，（2）在处理复杂的段落时难以进行全面考虑。为了应对这些不足，我们提出构建一个基于多种视角的一组标准生成排名分数的排名器。这些标准旨在从各个视角引导提供独特而协同的评估。我们的研究利用了来自BEIR基准的八个数据集，证明将这种多视角标准集合方法显著提升了点wise LLM排名器的性能。