LLM2D

摘要

arXiv:2502.14906v1 交叉类型公告摘要：基于文化背景对大规模语言模型（LLMs）的价值对齐进行研究已经成为一个关键的研究领域。然而，在大规模多模态视觉语言模型（VLMs）中，类似偏见的广泛探索并不充分。随着多模态模型规模的不断扩大，评估图像是否能作为文化可靠的代理以及这些价值观通过视觉和文本数据的结合是如何嵌入的变得越来越重要。在本文中，我们对不同规模的多模态模型进行了彻底的评估，重点关注它们与文化价值观的对齐程度。我们的发现表明，就像LLMs一样，VLMs对文化价值观表现出敏感性，但它们在与这些价值观对齐方面的表现高度依赖于上下文。虽然VLMs通过使用图像在提高价值理解方面具有潜力，但这种对齐在不同上下文中的差异性突显了多模态模型对齐中的复杂性和尚未探索的挑战。