LLM2D

摘要

arXiv:2403.17421v3 宣布类型: replace-cross 摘要：搜索结果多样化（SRD），其目标是在ranking列表中确保文档覆盖广泛的次级主题，在信息检索和网络搜索领域是一个重要且广泛研究的问题。现有方法主要利用“贪婪选择”范式，即一次选择得分最高的多样性得分文档，或优化目标函数的近似值。这些方法往往效率低下，并且容易陷入次优状态。为了解决这些挑战，我们引入了多智能体强化学习（MARL）用于搜索结果的多样性，称为MA4DIV。在这个方法中，每份文档都是一个智能体，搜索结果的多样化被建模为多个智能体之间的合作任务。通过将SRD排名问题建模为合作的MARL问题，这种方法允许直接优化多样性指标，例如$\alpha$-NDCG，同时实现高效的训练效率。我们在公开的TREC数据集和工业设置中的更大规模数据集上进行了实验。实验结果表明，在效果和效率方面，MA4DIV相比现有基准方法实现了显著改进，尤其是在工业数据集上。MA4DIV的代码可以在https://github.com/chenyiqun/MA4DIV上查看。