摘要
arXiv:2504.13120v1 Announce Type: cross
摘要:将现有概念组合成新颖想法的能力是人类智能的基本标志。 recent Vision-Language Models(VLMs)如GPT-4V和DALLE-3的进展引发了对其输出是否体现了组合创造力的争论——组合创造力被M. A. Boden(1998年)定义为通过组合现有概念来合成新颖想法——或仅仅是训练数据中复杂的模式匹配。受到认知科学的启发,我们从概念融合的角度研究了VLMs的组合创造力。我们提出了识别-解释-暗示(IEI)框架,该框架将创造过程分解为三个层面:识别输入空间、提取共享属性和推导新颖语义暗示。为了验证这一框架,我们策划了CreativeMashup,这是一个高质量的数据集,包含666个艺术家生成的视觉混搭作品,并按照IEI框架进行注释。通过大量的实验,我们证明在理解任务中,最佳的VLMs已经超越了普通人类的表现,但在理解深度上仍不如专家级别的理解;在生成任务中,将我们的IEI框架纳入生成管道中显著提高了VLMs输出的创造质量。我们的研究结果为评估人工创造力奠定了理论基础,并为提高VLMs的创造性生成提供了实际指南。