LLM2D

摘要

arXiv:2505.07251v1 公告类型: cross 摘要: 大型视觉语言模型（LVLMs）通过视觉上下文学习（VICL）实现了显著的性能，这一过程高度依赖于从大量标注示例集合（检索数据库）中检索到的演示。现有研究通常假设检索数据库包含所有标签的标注示例。然而，在现实场景中，数据库更新的延迟或数据标注不完整可能导致检索数据库仅包含部分类别的标注样本。我们称这种现象为“不完整检索数据库”（incomplete retrieval database），并定义在这种条件下进行的上下文学习为“不完备上下文学习（IICL）”。为了解决这一挑战，我们提出了“迭代判断和集成预测（IJIP）”这一两阶段框架，旨在缓解IICL的局限性。迭代判断阶段将m类分类问题重新表述为一系列m个二分类任务，有效地将IICL情境转换为标准的VICL情境。集成预测阶段进一步通过利用输入图像以及迭代判断阶段的预测结果来优化分类过程，从而提高整体分类准确性。IJIP在两种LVLM和两种数据集下的三种不同标签不完整条件下均表现出显著的性能，取得了最高的准确率为93.9%。值得注意的是，即使在标签完全可用的情况下，IJIP仍然比所有六种基线方法表现最佳。此外，IJIP可以直接应用于“提示学习”（Prompt Learning），并适用于“文本领域”（text domain）。