摘要
尽管在字幕生成方面取得了重大进展,但现有的评估指标往往无法捕捉到字幕的全部质量或细致细节。这主要是因为它们依赖于非特定的由人编写的参考或嘈杂的预训练数据。然而,找到一个有效的指标不仅对字幕评估至关重要,对生成阶段也至关重要。指标确实可以在字幕模型的微调阶段发挥关键作用,最终提高生成的字幕的质量。在本文中,我们提出了 PAC-S++,一个可学习的指标,它利用 CLIP 模型,该模型在收集的网络数据和清理后的数据上进行预训练,并通过额外的生成的视觉和文本正样本对进行正则化。利用这种更强大和经过整理的预训练,我们还将 PAC-S++ 作为奖励应用于自批判序列训练 (SCST) 阶段,该阶段通常用于微调字幕模型。在不同图像和视频数据集上的大量实验突出了 PAC-S++ 相比于该任务的流行指标的有效性,包括其对物体幻觉的敏感性。此外,我们证明将 PAC-S++ 整合到字幕模型的微调阶段会导致语义更丰富的字幕,重复和语法错误更少。在域外基准上的评估进一步证明了我们的微调方法在增强模型能力方面的有效性。源代码和训练后的模型可在以下地址公开获取:https://github.com/aimagelab/pacscore。