LLM2D

摘要

arXiv:2505.08834v1 交叉类型: cross 摘要：我们的研究主要集中在人群场景分析的两个主要应用：人群计数和异常检测。近年来，人群计数领域的研究呈指数增长。我们在这个领域中解决了两个主要挑战：1）深度学习模型依赖大量数据，总是需要大量的标记数据来进行算法的训练。标注如此大量的数据是一项耗时且成本高昂的任务。自我监督训练被提出以应对这一挑战；2）MCNN由具有不同尺寸滤波器的多列CNN组成，我们提出了一种基于自我监督训练和多列CNN结合的新方法，这使得模型能够在不同层次学习特征，并使其能够有效应对遮挡场景、不均匀密度、复杂背景和尺度不变性等挑战。所提出的模型在公开可用的数据集如上海Tech和UCFQNRF上通过MAE和MSE进行了评估。基于VGG19的时空模型被提出用于人群异常检测，以应对光照环境条件、意外物体和可扩展性等挑战。该模型提取空间和时间特征，使其能够泛化到真实场景中。空间特征使用CNN学习，而时间特征使用LSTM块学习。该模型进行二分类，可以检测正常或异常行为。通过用密集残差块取代全连接层，模型性能得到了提升。对冰球斗殴数据集和SCVD数据集的实验表明，我们的模型优于其他先进方法。