LLM2D

摘要

尽管 CLIPScore 是一个强大的通用度量标准，可以捕捉文本和图像之间的相似性，但它无法区分旨在补充图像信息的标题和旨在完全替代图像的描述（例如，为了可访问性）。我们通过使用参数高效微调和从因果可解释性工作中得出的损失目标，用 Concadia 数据集更新 CLIP 模型来解决此缺陷，从而为描述分配比标题更高的分数。该模型与盲人和低视力人士的判断相关联，同时保留了迁移能力，并且具有可解释的结构，揭示了标题和描述之间的区别。