摘要
使用大型语言模型 (LLM) 对篇章进行排序可以在现代信息检索 (IR) 系统中取得令人满意的性能。一种常见的排序方法是提示LLM进行成对或集合式比较,这通常依赖于排序算法。然而,基于排序的方法需要一致的比较才能正确地对篇章进行排序,而我们发现LLM经常违反这一要求。我们确定了基于LLM的成对比较中的两种内在不一致性:顺序不一致性,当切换篇章顺序时会导致冲突的结果;传递不一致性,会导致所有偏好对之间出现非传递性三元组。我们对这些不一致性的研究与理解和改进任何基于相对偏好的排序方案的稳定性相关。在本文中,我们提出了LLM-RankFusion,这是一个基于LLM的排序框架,它可以减轻这些不一致性并产生稳健的排序列表。LLM-RankFusion利用上下文学习 (ICL) 来演示与顺序无关的比较和校准,以估计两个篇章之间的潜在偏好概率,从而减轻顺序不一致性。然后,我们通过聚合来自多个排序器的排序结果来解决传递不一致性。在我们的实验中,我们通过实验证明,LLM-RankFusion可以显著减少不一致的比较结果,通过使最终排序列表更加稳健来提高排序质量。我们的代码可在\href{https://github.com/XHMY/LLM-RankFusion}{https://github.com/XHMY/LLM-RankFusion} 获取。