LLM2D
基于视觉-语言模型的人类动作识别齐性预测
Conformal Predictions for Human Action Recognition with Vision-Language Models
作者: Bary Tim, Fuchs Cl\'ement, Macq Beno\^it
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06631v1

摘要

arXiv:2502.06631v1 宣告类型: cross 摘要: 人类在环(Human-In-The-Loop, HITL)框架在许多实际计算机视觉系统中至关重要,能够使人类操作者在人工智能辅助下做出知情决策。可靠保证真实标签包含概率的Conformal Predictions (CP) 近来作为HITL环境中有价值的工具得到了广泛关注。一个关键应用领域是视频监视,与人类动作识别(Human Action Recognition, HAR)紧密相关。本研究探讨了在最先进的利用预训练Vision-Language Models (VLMs)的HAR方法之上应用CP的应用。我们的研究发现,CP可以在不修改底层VLM的情况下显著减少候选类别的平均数量。然而,这些减少往往会导致具有长尾的分布。为了解决这一问题,我们介绍了一种方法,通过对VLMs的温度参数进行调整以最小化这些长尾,而无需额外的校准数据。我们的代码可在 GitHub 地址 https://github.com/tbary/CP4VLM 获取。