LLM2D

摘要

arXiv:2405.14142v2 多模态数据集类型: 替换-交叉摘要: 我们引入了一个多模态数据集，其中用户通过图片来表达他们的偏好。这些图片涵盖了从风景到艺术描绘等多种视觉表现形式。用户请求推荐能够唤起类似图片情感的书籍或音乐，并通过点赞的方式由社区来认可这些推荐。该数据集支持两种推荐任务：标题生成和多项选择。我们的实验结果显示，大型基础模型在这两项任务中存在局限性。特别是在这些任务中，视觉-语言模型并没显示比仅使用描述的语言模型有显著的优势，我们认为这是由于视觉能力的未充分利用所致。为了更好地利用这些能力，我们提出了链条图像提示的方法，这导致了显著的改进。我们发布了我们的代码和数据集。