LLM2D

摘要

arXiv:2504.19032v1 交叉类型: cross 摘要: 我们引入了VISUALCENT，这是一个统一的人体姿态和实例分割框架，旨在克服多人大规模视觉人类分析的一般化和可扩展性限制。VISUALCENT 利用基于质心的自底向上的关键点检测范式，并通过结合 Disk Representation 和 KeyCentroid 的 Keypoint Heatmap 来识别最优关键点坐标。在统一的分割任务中，定义一个显式关键点为称为 MaskCentroid 的动态质心，以便在人类身体运动快速变化或严重遮挡的环境中快速将像素聚类到特定的人类实例。在COCO和OCHuman数据集上的实验结果证明了VISUALCENT在精度和实时性能方面的优势，并在mAP分数和每秒执行帧率上优于现有方法。该项目的实现可在项目页面上获得。