LLM2D

摘要

arXiv:2504.11473v1 宣告类型: cross 摘要：人类可以从多种输入来源中进行道德推断。相比之下，人工智能中的自动化道德推理通常依赖于以文本输入为主的语言模型。然而，道德不仅仅通过语言传达。我们提出了一种计算框架，支持从自然图像中进行道德推断，并通过两个相关任务进行了演示：1）对视觉图像的人类道德判断进行推断；2）分析通过公共新闻传递的道德内容的模式。我们发现，仅基于文本的模型无法捕捉对视觉刺激的人类精细道德判断，但语言-视觉融合模型在视觉道德推断方面提供了更高的精度。此外，将我们的框架应用于新闻数据揭示了新闻类别和地缘政治讨论中的隐含偏见。我们的工作为自动化的视觉道德推断以及在公共媒体中发现视觉道德沟通的模式开辟了途径。