LLM2D

摘要

arXiv:2504.13120v1 Announce Type: cross 摘要：将现有概念组合成新颖想法的能力是人类智能的基本标志。 recent Vision-Language Models（VLMs）如GPT-4V和DALLE-3的进展引发了对其输出是否体现了组合创造力的争论——组合创造力被M. A. Boden（1998年）定义为通过组合现有概念来合成新颖想法——或仅仅是训练数据中复杂的模式匹配。受到认知科学的启发，我们从概念融合的角度研究了VLMs的组合创造力。我们提出了识别-解释-暗示（IEI）框架，该框架将创造过程分解为三个层面：识别输入空间、提取共享属性和推导新颖语义暗示。为了验证这一框架，我们策划了CreativeMashup，这是一个高质量的数据集，包含666个艺术家生成的视觉混搭作品，并按照IEI框架进行注释。通过大量的实验，我们证明在理解任务中，最佳的VLMs已经超越了普通人类的表现，但在理解深度上仍不如专家级别的理解；在生成任务中，将我们的IEI框架纳入生成管道中显著提高了VLMs输出的创造质量。我们的研究结果为评估人工创造力奠定了理论基础，并为提高VLMs的创造性生成提供了实际指南。