LLM2D

摘要

arXiv:2503.23312v1 宣布类型: 新增摘要: 会话推荐系统通过对话来细化用户需求并提供更加个性化的建议。尽管文本信息在许多领域已经足够，但像时尚或家居装饰等视觉驱动类别可能需要与颜色、风格或设计相关的详细视觉信息。为了解决这一挑战，我们提出了一种新颖的方法 LaViC（大型视觉-语言对话推荐框架），该方法将紧凑的图像表示整合到基于对话的推荐系统中。LaViC 采用两阶段过程：(1) 视觉知识自我蒸馏，该过程通过自我蒸馏方式将数百个产品图像浓缩成少量的视觉标记，显著减少了计算开销；(2) 推荐提示调优，使模型能够结合对话上下文和蒸馏后的视觉标记，提供一个统一的机制来捕捉文本和视觉特征。为了支持对具有视觉感知的对话推荐进行严格的评估，我们通过将 Reddit 对话与亚马逊产品列表对齐，构建了一个新的数据集，涵盖了多个视觉导向类别（例如，时尚、美容和家居）中的真实用户查询和产品外观。这个数据集包含了诸如视觉细节至关重要的领域中的现实场景。广泛的实验表明，LaViC 显著优于仅基于文本的对话推荐方法和开源的视觉-语言基线。此外，LaViC 达到了与知名专有基线（例如 GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o）相近或更优的准确性，这证明了明确使用视觉数据捕捉产品属性的必要性，以及我们视觉-语言整合的有效性。我们的代码和数据集可在 https://github.com/jeon185/LaViC 获取。