LLM2D
ArtRAG:视觉艺术理解中的结构化上下文检索增强生成
ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding
作者: Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.06020v1

摘要

arXiv:2505.06020v1 通知类型: 新颖 摘要: 理解视觉艺术需要跨多个视角——文化、历史和风格——的推理,而不仅仅是对象识别。虽然最近的多模态大型语言模型(MLLMs)在通用图像描述上表现良好,但它们往往无法捕捉到fine art所需要的细腻解读。我们提出了ArtRAG,一种新颖的无需训练的框架,结合结构化知识与检索增强生成(RAG)来进行多视角艺术作品解释。ArtRAG 从领域特定的文本源自动构建一个艺术上下文知识图谱(ACKG),将艺术家、运动、主题和历史事件组织成一个丰富且可解释的图结构。在推理时,多层次结构化的检索器选择语义上和拓扑上相关的子图来引导生成。这使MLLMs能够生成上下文相关、文化意识的艺术描述。在SemArt和Artpedia数据集上的实验表明,ArtRAG 在多个重訓基线中表现更优。进一步的人类评估还证实,ArtRAG 生成的解释是连贯的、有洞察力的,并富含文化内涵。