摘要
arXiv:2404.11960v3 通知类型: 替换-交叉
摘要:最近的点wise大型语言模型(LLM)排名器取得了显著的排名结果。然而,这些排名器受到了两大主要缺陷的限制:(1)在排名过程中未能遵循标准化的比较指导,(2)在处理复杂的段落时难以进行全面考虑。为了应对这些不足,我们提出构建一个基于多种视角的一组标准生成排名分数的排名器。这些标准旨在从各个视角引导提供独特而协同的评估。我们的研究利用了来自BEIR基准的八个数据集,证明将这种多视角标准集合方法显著提升了点wise LLM排名器的性能。