LLM2D

摘要

arXiv:2505.10169v1 类型: cross 摘要: 基于图像的显著性预测近年来在现有基准上的性能正逐渐接近最佳标准。尽管取得了这一成就，我们仍发现，跨多个显著性数据集预测Fixations（注视点）仍然极具挑战性，原因在于数据集偏差。当在一种数据集上训练的模型应用于另一种数据集时，我们发现性能下降了约40%。令人惊讶的是，增加数据集多样性并不能解决这种跨数据集差距，大约60%的差距归因于数据集特异的偏差。为了解决剩余的泛化差距，我们提出了一种新的架构，它扩展了一个几乎没有数据集依赖性的编码器-解码器结构，仅加入不到20个数据集特定的参数，这些参数管理诸如多尺度结构、中心偏好和注视分布等可解释机制。仅调整这些参数以适应新数据即可解释超过75%的泛化差距，且在使用最多50个样本的情况下，有很大一部分改进得到了实现。我们的模型在MIT/Tübingen显著性基准中的三个数据集（MIT300、CAT2000和COCO-Freeview）上都设定了新的最佳性能，即使在仅从不相关的数据集泛化时也如此，但在调整到相应的训练数据集时性能得到了显著提升。该模型还为空间显著性属性提供了有价值的见解，揭示了复杂多尺度效应的结合，这些效应结合了绝对和相对大小的影响。