摘要
arXiv:2504.01403v1 Announce Type: cross
摘要:传统稀疏检索和密集检索方法难以利用通用的世界知识,并且往往无法捕捉查询和产品的细腻特征。随着大型语言模型(LLMs)的出现,工业搜索系统开始使用LLMs生成产品检索标识符。常用的标识符包括(1)静态/语义ID和(2)产品术语集。第一种方法需要从零开始创建产品ID系统,从而错过了嵌入在LLMs中的世界知识。而第二种方法利用了这种通用知识,但由于查询和产品之间的词汇分布存在显著差异,基于产品标识符往往与用户搜索查询不匹配,导致产品召回率较低。此外,当查询包含大量属性时,这些算法会产生大量的标识符,使得难以评估它们的质量,从而导致总体召回效率低下。
为应对这些挑战,本文提出了一种新的电商检索范式:生成式检索和对齐模型(GRAM)。GRAM通过同时训练查询和产品的文本信息来生成共享文本标识符代码,有效地弥合了查询和产品之间的差距。这种方法不仅增强了查询和产品之间的连接,还提高了推理效率。模型使用协同对齐策略生成优化以最大化检索效率的代码。此外,它引入了一种查询-产品评分机制,用于在不同代码之间比较产品值,进一步提高了检索效率。大量的离线和在线A/B测试表明,GRAM显著优于传统模型和最新的生成式检索模型,证实了其有效性和实用性。