LLM2D

摘要

arXiv:2505.04637v1 交叉类型:跨模态摘要：最近在多模态大规模语言模型（MLLMs）方面的进展展示出了处理多种数据类型的非凡能力，然而，人类认知过程与计算方法在多模态信息整合方面仍存在显著差异。本研究系统地探讨了人类跨模态分块机制与MLLMs的标记表示方法之间的相似之处。通过比较人类在视觉-语言任务中的表现模式与模型行为，我们证明了传统的静态标记化方案根本上限制了当前模型模拟人类信息处理的动态和上下文敏感性的能力。我们提出了一种基于认知科学原理的动态跨模态标记化框架，它结合了适应性边界、分层表示和对齐机制。定量评估表明，我们的方法在基准任务上优于最先进的模型（视觉问答任务上的+7.8%，复杂场景描述任务上的+5.3%），并且表现出更贴近人类的错误模式和注意力分布。这些发现有助于理解人类认知与人工智能之间的关系，并提供了发展更具认知合理性的AI系统的实证证据。