LLM2D

摘要

arXiv:2504.01225v1 交叉类型: cross 摘要：本研究探讨了学习图像说明评估指标目前存在的限制，特别是缺乏对说明中个别单词错位的精细评估，以及依赖单一质量估计而不考虑不确定性。为了解决这些限制，我们提出了一个简单而有效的策略来生成和校准CLIPScore分布。利用一个模型无关的符合风险控制框架，我们针对特定任务校准CLIPScore值，以解决上述两个限制。实验结果显示，使用符合风险控制方法在校准通过简单方法（如输入掩蔽）生成的分布时，可以实现与更复杂方法相当的性能。我们的方法有效地检测了错位的单词，同时提供了与所需风险水平对齐的形式保证，并改善了不确定性估计与预测误差之间的相关性，从而提高了图像描述评估指标的整体可靠性。