LLM2D
图像为 inquiry:探索多模态数据集以进行对话推荐
Imagery as Inquiry: Exploring A Multimodal Dataset for Conversational Recommendation
作者: Se-eun Yoon, Hyunsik Jeon, Julian McAuley
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2405.14142v2

摘要

arXiv:2405.14142v2 多模态数据集类型: 替换-交叉 摘要: 我们引入了一个多模态数据集,其中用户通过图片来表达他们的偏好。这些图片涵盖了从风景到艺术描绘等多种视觉表现形式。用户请求推荐能够唤起类似图片情感的书籍或音乐,并通过点赞的方式由社区来认可这些推荐。该数据集支持两种推荐任务:标题生成和多项选择。我们的实验结果显示,大型基础模型在这两项任务中存在局限性。特别是在这些任务中,视觉-语言模型并没显示比仅使用描述的语言模型有显著的优势,我们认为这是由于视觉能力的未充分利用所致。为了更好地利用这些能力,我们提出了链条图像提示的方法,这导致了显著的改进。我们发布了我们的代码和数据集。