LLM2D
一种符合测度的风险控制框架:用于CLIPScore质量估计的粒状词评估和不确定性校准
A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates
作者: Gon\c{c}alo Gomes, Chrysoula Zerva, Bruno Martins
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01225v1

摘要

arXiv:2504.01225v1 交叉类型: cross 摘要:本研究探讨了学习图像说明评估指标目前存在的限制,特别是缺乏对说明中个别单词错位的精细评估,以及依赖单一质量估计而不考虑不确定性。为了解决这些限制,我们提出了一个简单而有效的策略来生成和校准CLIPScore分布。利用一个模型无关的符合风险控制框架,我们针对特定任务校准CLIPScore值,以解决上述两个限制。实验结果显示,使用符合风险控制方法在校准通过简单方法(如输入掩蔽)生成的分布时,可以实现与更复杂方法相当的性能。我们的方法有效地检测了错位的单词,同时提供了与所需风险水平对齐的形式保证,并改善了不确定性估计与预测误差之间的相关性,从而提高了图像描述评估指标的整体可靠性。