LLM2D
复杂性中的复杂性:通过结构、颜色和惊喜理解视觉复杂性
Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise
作者: Karahan Sar{\i}ta\c{s}, Peter Dayan, Tingke Shen, Surabhi S Nath
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2501.15890v2

摘要

arXiv:2501.15890v2 宣布类型: replace-cross 摘要:理解人类对视觉复杂性的感知在视觉认知中至关重要。最近(Shen等,2024)提出了一种可解释的分割模型,该模型能够准确地跨多个数据集预测复杂性,支持复杂性可以简单解释的观点。在本工作中,我们研究了他们模型未能捕捉到结构、颜色和意外贡献到复杂性的情况。为此,我们提出了多尺度Sobel梯度来衡量空间强度变化,多尺度唯一颜色来衡量多个尺度上的颜色丰富度,以及使用大语言模型生成的惊奇评分。我们在这项工作中测试了这些特征在现有基准和包含来自Visual Genome的令人惊讶图像的新数据集上的效果。我们的实验表明,准确建模复杂性并非像之前认为的那么简单,需要额外的感知和语义因素来解决数据集偏差。因此,我们的结果提供了更深入地了解人类如何评估视觉复杂性的见解。