摘要
arXiv:2504.12511v1 Announce Type: cross
摘要:本文推进了人类计算机交互(HCI)、心理学和认知科学领域中人工智能增强推理的研究,重点关注视觉感知这一关键任务。具体而言,我们研究了多模态大型语言模型(MLLMs)在该领域的适用性。为了实现这一目标,我们利用心理学和认知科学中关于人类视觉感知复杂性的建立原则和解释。我们将这些原则作为指导MLLMs比较和解释视觉内容的基础。我们的研究旨在在与视觉感知相关的各种解释原则下评估MLLMs的表现。不同于最近主要使用高级深度学习模型来预测视觉内容的复杂性指标的方法,我们的工作并不旨在开发一个新的预测模型。相反,我们提出了一种新的无标注分析框架,用于评估MLLMs作为HCI任务的认知辅助工具的实用性,视觉感知作为案例研究。主要目标是为量化和评估MLLMs在提高人类推理能力和揭示现有由人类标注的感知数据集中的偏差方面的可解释性提供一个有原则的框架。