摘要
arXiv:2504.13120v2 通知类型: 交叉替换
摘要:将现有概念组合成新的想法,是人类智能的基本特征之一。视觉-语言模型(VLMs)如GPT-4V和DALLE-3的最新进展引发了关于其输出是否体现了组合创造力的辩论,组合创造力这一概念由M.A.博登(1998)定义为通过结合现有概念来合成新的想法,或者是否仅仅是训练数据的高级模式匹配。借鉴认知科学的思路,我们从概念融合的视角研究VLMs的组合创造力。我们提出了识别-解释-暗示(IEI)框架,将创造过程分为三个层次:识别输入空间、提取共享属性和推导新的语义暗示。为了验证这一框架,我们编纂了CreativeMashup,这是一个高品质的数据集,包含了666个艺术家生成的视觉混搭作品,并根据IEI框架进行了注解。通过广泛的实验,我们证明,在理解任务中,最好的VLMs已经超越了平均水平的人类表现,但在专家级理解上仍有所欠缺;在生成任务中,将我们的IEI框架纳入生成流程显著提升了VLMs输出的创造性质量。我们的研究结果为评估人工智能的创造力提供了理论基础,并为提高VLMs的创造性生成提供了实用指南。