LLM2D

摘要

arXiv:2502.06631v1 宣告类型: cross 摘要: 人类在环(Human-In-The-Loop, HITL)框架在许多实际计算机视觉系统中至关重要，能够使人类操作者在人工智能辅助下做出知情决策。可靠保证真实标签包含概率的Conformal Predictions (CP) 近来作为HITL环境中有价值的工具得到了广泛关注。一个关键应用领域是视频监视，与人类动作识别(Human Action Recognition, HAR)紧密相关。本研究探讨了在最先进的利用预训练Vision-Language Models (VLMs)的HAR方法之上应用CP的应用。我们的研究发现，CP可以在不修改底层VLM的情况下显著减少候选类别的平均数量。然而，这些减少往往会导致具有长尾的分布。为了解决这一问题，我们介绍了一种方法，通过对VLMs的温度参数进行调整以最小化这些长尾，而无需额外的校准数据。我们的代码可在 GitHub 地址 https://github.com/tbary/CP4VLM 获取。