LLM2D
生成式检索对齐模型:电子商务检索的新范式
Generative Retrieval and Alignment Model: A New Paradigm for E-commerce Retrieval
作者: Ming Pang, Chunyuan Yuan, Xiaoyu He, Zheng Fang, Donghao Xie, Fanyi Qu, Xue Jiang, Changping Peng, Zhangang Lin, Zheng Luo, Jingping Shao
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01403v1

摘要

arXiv:2504.01403v1 Announce Type: cross 摘要:传统稀疏检索和密集检索方法难以利用通用的世界知识,并且往往无法捕捉查询和产品的细腻特征。随着大型语言模型(LLMs)的出现,工业搜索系统开始使用LLMs生成产品检索标识符。常用的标识符包括(1)静态/语义ID和(2)产品术语集。第一种方法需要从零开始创建产品ID系统,从而错过了嵌入在LLMs中的世界知识。而第二种方法利用了这种通用知识,但由于查询和产品之间的词汇分布存在显著差异,基于产品标识符往往与用户搜索查询不匹配,导致产品召回率较低。此外,当查询包含大量属性时,这些算法会产生大量的标识符,使得难以评估它们的质量,从而导致总体召回效率低下。 为应对这些挑战,本文提出了一种新的电商检索范式:生成式检索和对齐模型(GRAM)。GRAM通过同时训练查询和产品的文本信息来生成共享文本标识符代码,有效地弥合了查询和产品之间的差距。这种方法不仅增强了查询和产品之间的连接,还提高了推理效率。模型使用协同对齐策略生成优化以最大化检索效率的代码。此外,它引入了一种查询-产品评分机制,用于在不同代码之间比较产品值,进一步提高了检索效率。大量的离线和在线A/B测试表明,GRAM显著优于传统模型和最新的生成式检索模型,证实了其有效性和实用性。