摘要
arXiv:2504.01225v1 交叉类型: cross
摘要:本研究探讨了学习图像说明评估指标目前存在的限制,特别是缺乏对说明中个别单词错位的精细评估,以及依赖单一质量估计而不考虑不确定性。为了解决这些限制,我们提出了一个简单而有效的策略来生成和校准CLIPScore分布。利用一个模型无关的符合风险控制框架,我们针对特定任务校准CLIPScore值,以解决上述两个限制。实验结果显示,使用符合风险控制方法在校准通过简单方法(如输入掩蔽)生成的分布时,可以实现与更复杂方法相当的性能。我们的方法有效地检测了错位的单词,同时提供了与所需风险水平对齐的形式保证,并改善了不确定性估计与预测误差之间的相关性,从而提高了图像描述评估指标的整体可靠性。