LLM2D
LaViC: 适应视觉意识对话推荐的大规模视觉-语言模型调整
LaViC: Adapting Large Vision-Language Models to Visually-Aware Conversational Recommendation
作者: Hyunsik Jeon, Satoshi Koide, Yu Wang, Zhankui He, Julian McAuley
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23312v1

摘要

arXiv:2503.23312v1 宣布类型: 新增 摘要: 会话推荐系统通过对话来细化用户需求并提供更加个性化的建议。尽管文本信息在许多领域已经足够,但像时尚或家居装饰等视觉驱动类别可能需要与颜色、风格或设计相关的详细视觉信息。为了解决这一挑战,我们提出了一种新颖的方法 LaViC(大型视觉-语言对话推荐框架),该方法将紧凑的图像表示整合到基于对话的推荐系统中。LaViC 采用两阶段过程:(1) 视觉知识自我蒸馏,该过程通过自我蒸馏方式将数百个产品图像浓缩成少量的视觉标记,显著减少了计算开销;(2) 推荐提示调优,使模型能够结合对话上下文和蒸馏后的视觉标记,提供一个统一的机制来捕捉文本和视觉特征。为了支持对具有视觉感知的对话推荐进行严格的评估,我们通过将 Reddit 对话与亚马逊产品列表对齐,构建了一个新的数据集,涵盖了多个视觉导向类别(例如,时尚、美容和家居)中的真实用户查询和产品外观。这个数据集包含了诸如视觉细节至关重要的领域中的现实场景。广泛的实验表明,LaViC 显著优于仅基于文本的对话推荐方法和开源的视觉-语言基线。此外,LaViC 达到了与知名专有基线(例如 GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o)相近或更优的准确性,这证明了明确使用视觉数据捕捉产品属性的必要性,以及我们视觉-语言整合的有效性。我们的代码和数据集可在 https://github.com/jeon185/LaViC 获取。