摘要
arXiv:2412.01487v3 宣告类型: 替换
摘要:大规模视觉语言模型(LVLMs)在处理文本和视觉输入时展现出了非凡的推理能力。然而,这些模型仍然容易生成错误信息。识别和缓解不具依据的响应对于开发可信的人工智能至关重要。传统的解释性方法,如梯度基相关性图,可以提供模型决策过程的见解,但往往是计算成本高昂且不适合实时输出验证。在本文中,我们引入了FastRM,这是一种高效的方法来预测LVLMs的相关性图。此外,FastRM还提供了模型置信度的定量和定性评估。实验结果表明,FastRM在计算时间上实现了99.8%的减少,在内存占用上实现了44.4%的减少,相较于传统的相关性图生成方法。FastRM使得可解释的人工智能更加实用和可扩展,从而促进其实现在世界范围内的部署,并使用户能够更有效地评估模型输出的可靠性。