摘要
arXiv:2403.17421v3 宣布类型: replace-cross
摘要:搜索结果多样化(SRD),其目标是在ranking列表中确保文档覆盖广泛的次级主题,在信息检索和网络搜索领域是一个重要且广泛研究的问题。现有方法主要利用“贪婪选择”范式,即一次选择得分最高的多样性得分文档,或优化目标函数的近似值。这些方法往往效率低下,并且容易陷入次优状态。为了解决这些挑战,我们引入了多智能体强化学习(MARL)用于搜索结果的多样性,称为MA4DIV。在这个方法中,每份文档都是一个智能体,搜索结果的多样化被建模为多个智能体之间的合作任务。通过将SRD排名问题建模为合作的MARL问题,这种方法允许直接优化多样性指标,例如$\alpha$-NDCG,同时实现高效的训练效率。我们在公开的TREC数据集和工业设置中的更大规模数据集上进行了实验。实验结果表明,在效果和效率方面,MA4DIV相比现有基准方法实现了显著改进,尤其是在工业数据集上。MA4DIV的代码可以在https://github.com/chenyiqun/MA4DIV上查看。