LLM2D

摘要

arXiv:2504.13120v2 通知类型: 交叉替换摘要：将现有概念组合成新的想法，是人类智能的基本特征之一。视觉-语言模型（VLMs）如GPT-4V和DALLE-3的最新进展引发了关于其输出是否体现了组合创造力的辩论，组合创造力这一概念由M.A.博登（1998）定义为通过结合现有概念来合成新的想法，或者是否仅仅是训练数据的高级模式匹配。借鉴认知科学的思路，我们从概念融合的视角研究VLMs的组合创造力。我们提出了识别-解释-暗示（IEI）框架，将创造过程分为三个层次：识别输入空间、提取共享属性和推导新的语义暗示。为了验证这一框架，我们编纂了CreativeMashup，这是一个高品质的数据集，包含了666个艺术家生成的视觉混搭作品，并根据IEI框架进行了注解。通过广泛的实验，我们证明，在理解任务中，最好的VLMs已经超越了平均水平的人类表现，但在专家级理解上仍有所欠缺；在生成任务中，将我们的IEI框架纳入生成流程显著提升了VLMs输出的创造性质量。我们的研究结果为评估人工智能的创造力提供了理论基础，并为提高VLMs的创造性生成提供了实用指南。