LLM2D

摘要

arXiv:2501.15890v2 宣布类型: replace-cross 摘要：理解人类对视觉复杂性的感知在视觉认知中至关重要。最近（Shen等，2024）提出了一种可解释的分割模型，该模型能够准确地跨多个数据集预测复杂性，支持复杂性可以简单解释的观点。在本工作中，我们研究了他们模型未能捕捉到结构、颜色和意外贡献到复杂性的情况。为此，我们提出了多尺度Sobel梯度来衡量空间强度变化，多尺度唯一颜色来衡量多个尺度上的颜色丰富度，以及使用大语言模型生成的惊奇评分。我们在这项工作中测试了这些特征在现有基准和包含来自Visual Genome的令人惊讶图像的新数据集上的效果。我们的实验表明，准确建模复杂性并非像之前认为的那么简单，需要额外的感知和语义因素来解决数据集偏差。因此，我们的结果提供了更深入地了解人类如何评估视觉复杂性的见解。