LLM2D

摘要

arXiv:2504.01403v1 Announce Type: cross 摘要：传统稀疏检索和密集检索方法难以利用通用的世界知识，并且往往无法捕捉查询和产品的细腻特征。随着大型语言模型（LLMs）的出现，工业搜索系统开始使用LLMs生成产品检索标识符。常用的标识符包括（1）静态/语义ID和（2）产品术语集。第一种方法需要从零开始创建产品ID系统，从而错过了嵌入在LLMs中的世界知识。而第二种方法利用了这种通用知识，但由于查询和产品之间的词汇分布存在显著差异，基于产品标识符往往与用户搜索查询不匹配，导致产品召回率较低。此外，当查询包含大量属性时，这些算法会产生大量的标识符，使得难以评估它们的质量，从而导致总体召回效率低下。为应对这些挑战，本文提出了一种新的电商检索范式：生成式检索和对齐模型（GRAM）。GRAM通过同时训练查询和产品的文本信息来生成共享文本标识符代码，有效地弥合了查询和产品之间的差距。这种方法不仅增强了查询和产品之间的连接，还提高了推理效率。模型使用协同对齐策略生成优化以最大化检索效率的代码。此外，它引入了一种查询-产品评分机制，用于在不同代码之间比较产品值，进一步提高了检索效率。大量的离线和在线A/B测试表明，GRAM显著优于传统模型和最新的生成式检索模型，证实了其有效性和实用性。