LLM2D

摘要

arXiv:2505.01743v1 交叉公告类型摘要：大型视觉语言模型（LVLMs）的快速发展提供了超越传统标注的潜力，能够在低分辨率视觉系统（如深度、热成像和红外）中生成更丰富、更详细的设备上人类行为理解（HBU）描述。然而，现有的大型视觉语言模型方法无法很好地理解低分辨率数据，因为它们主要是为高分辨率数据（如RGB图像）设计的。一个快速的修复方法是标注大量低分辨率数据，但需要大量的劳动密集型标注工作。在这篇论文中，我们提出了一种新型、节省劳动力的系统Llambda，旨在支持低分辨率HBU。核心思想是利用有限的有标签数据和大量的无标签数据来引导LLMs生成具有信息性的描述，这些描述可以与原始数据结合使用，以有效微调LVLM模型以理解和解释低分辨率视频中的HBU。首先，我们提出了一个对比导向的数据标注器，可以从长的低分辨率视频中捕获行为相关的信息，并通过对比学习生成高质量的伪标签以标注无标签数据。其次，我们提出了一种物理知识引导的描述生成器，它利用空间和时间一致性检查来减轻伪标签中的错误，从而提高LLMs对序列数据的理解能力，并生成高质量的视频描述。最后，为确保设备可用性，我们采用了基于LoRA的高效微调方法，使LVLMs适应低分辨率数据。我们使用地区规模的现实测试床和三个不同的低分辨率数据集对Llambda进行了评估，实验结果表明，Llambda在平均BERT评分上比几种最先进的LVLM系统高至40.03%。