LLM2D
一种由大语言模型赋能的低分辨率视觉系统,用于设备端的人类行为理解
An LLM-Empowered Low-Resolution Vision System for On-Device Human Behavior Understanding
作者: Siyang Jiang, Bufang Yang, Lilin Xu, Mu Yuan, Yeerzhati Abudunuer, Kaiwei Liu, Liekang Zeng, Hongkai Chen, Zhenyu Yan, Xiaofan Jiang, Guoliang Xing
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01743v1

摘要

arXiv:2505.01743v1 交叉公告类型 摘要:大型视觉语言模型(LVLMs)的快速发展提供了超越传统标注的潜力,能够在低分辨率视觉系统(如深度、热成像和红外)中生成更丰富、更详细的设备上人类行为理解(HBU)描述。然而,现有的大型视觉语言模型方法无法很好地理解低分辨率数据,因为它们主要是为高分辨率数据(如RGB图像)设计的。一个快速的修复方法是标注大量低分辨率数据,但需要大量的劳动密集型标注工作。在这篇论文中,我们提出了一种新型、节省劳动力的系统Llambda,旨在支持低分辨率HBU。核心思想是利用有限的有标签数据和大量的无标签数据来引导LLMs生成具有信息性的描述,这些描述可以与原始数据结合使用,以有效微调LVLM模型以理解和解释低分辨率视频中的HBU。首先,我们提出了一个对比导向的数据标注器,可以从长的低分辨率视频中捕获行为相关的信息,并通过对比学习生成高质量的伪标签以标注无标签数据。其次,我们提出了一种物理知识引导的描述生成器,它利用空间和时间一致性检查来减轻伪标签中的错误,从而提高LLMs对序列数据的理解能力,并生成高质量的视频描述。最后,为确保设备可用性,我们采用了基于LoRA的高效微调方法,使LVLMs适应低分辨率数据。我们使用地区规模的现实测试床和三个不同的低分辨率数据集对Llambda进行了评估,实验结果表明,Llambda在平均BERT评分上比几种最先进的LVLM系统高至40.03%。