LLM2D

摘要

arXiv:2505.06020v1 通知类型: 新颖摘要: 理解视觉艺术需要跨多个视角——文化、历史和风格——的推理，而不仅仅是对象识别。虽然最近的多模态大型语言模型（MLLMs）在通用图像描述上表现良好，但它们往往无法捕捉到fine art所需要的细腻解读。我们提出了ArtRAG，一种新颖的无需训练的框架，结合结构化知识与检索增强生成（RAG）来进行多视角艺术作品解释。ArtRAG 从领域特定的文本源自动构建一个艺术上下文知识图谱（ACKG），将艺术家、运动、主题和历史事件组织成一个丰富且可解释的图结构。在推理时，多层次结构化的检索器选择语义上和拓扑上相关的子图来引导生成。这使MLLMs能够生成上下文相关、文化意识的艺术描述。在SemArt和Artpedia数据集上的实验表明，ArtRAG 在多个重訓基线中表现更优。进一步的人类评估还证实，ArtRAG 生成的解释是连贯的、有洞察力的，并富含文化内涵。