摘要
深度神经网络 (DNN) 在图像字幕任务中识别视觉元素和生成描述性文本方面取得了显著进展。然而,它们性能的提升源于计算负担的增加和推理延迟。提前退出 (EE) 策略可用于提高其效率,但将其应用于图像字幕存在挑战,因为它需要不同程度的语义信息才能进行准确预测。为了克服这个问题,我们引入了 CAPEEN,利用知识蒸馏来提高 EE 策略的性能。如果预测置信度超过从训练数据中学习的预定义值,则 CAPEEN 的推理将在中间层完成。为了应对目标分布可能偏离训练样本的现实世界部署,我们引入了 A-CAPEEN 变体,使用多臂老虎机框架来动态调整阈值。在 MS COCO 和 Flickr30k 数据集上的实验表明,与最后一层相比,CAPEEN 的速度提高了 1.77 倍,同时保持了具有竞争力的性能,而 A-CAPEEN 额外提供了对失真的鲁棒性。源代码可在 https://github.com/Div290/CapEEN 获取。