摘要
arXiv:2501.03835v2 公告类型: replace-cross
摘要: 产品属性值识别 (PAVI) 涉及从产品资料中识别属性值,这是在电子商务平台提高产品搜索、推荐和商业分析的关键任务。然而,现有的PAVI方法面临诸如推断隐含值、处理未分布(OOD)值以及生成规范化输出的关键挑战。为了解决这些限制,我们引入了Taxonomy-Aware Contrastive Learning Retrieval (TACLR),这是首个基于检索的PAVI方法。TACLR 将PAVI形式化为信息检索任务,通过将产品资料和候选值编码为嵌入,并基于与项目嵌入的相似度检索值来实现。它利用带有 taxonomy-aware 硬负样本的对比训练,并采用动态阈值的自适应推理。TACLR 的三大优势在于:(1)它有效地处理隐含值和OOD值,同时生成规范化输出;(2)它可扩展到数千个类别、数万个属性和数百万个值;(3)它支持负载较高的工业场景中的高效推理。在专有和公开数据集上进行的大量实验验证了 TACLR 的有效性和效率。此外,TACLR 已成功部署于一个实际的电子商务平台,每日处理数百万个产品列表,同时支持动态的大规模属性分类。