摘要
arXiv:2505.06020v1 通知类型: 新颖
摘要: 理解视觉艺术需要跨多个视角——文化、历史和风格——的推理,而不仅仅是对象识别。虽然最近的多模态大型语言模型(MLLMs)在通用图像描述上表现良好,但它们往往无法捕捉到fine art所需要的细腻解读。我们提出了ArtRAG,一种新颖的无需训练的框架,结合结构化知识与检索增强生成(RAG)来进行多视角艺术作品解释。ArtRAG 从领域特定的文本源自动构建一个艺术上下文知识图谱(ACKG),将艺术家、运动、主题和历史事件组织成一个丰富且可解释的图结构。在推理时,多层次结构化的检索器选择语义上和拓扑上相关的子图来引导生成。这使MLLMs能够生成上下文相关、文化意识的艺术描述。在SemArt和Artpedia数据集上的实验表明,ArtRAG 在多个重訓基线中表现更优。进一步的人类评估还证实,ArtRAG 生成的解释是连贯的、有洞察力的,并富含文化内涵。