LLM2D

摘要

arXiv:2504.14200v1 交叉类型: 宣告摘要: 在上下文学习（ICL）使大规模视觉语言模型（LVLMs）能够在不更新参数的情况下适应新任务方面，只需使用大量支持集中的几个示例。然而，选择有信息量的示例会导致高计算和内存成本。尽管一些方法探索在文本分类中选择少量有代表性的核心集，但评价所有支持集样本仍然成本高昂，被丢弃的样本会导致不必要的信息损失。这些方法在图像分类中可能也效果较差，因为特征空间存在差异。鉴于这些限制，我们提出了基于关键的核选择优化（KeCO）框架，该框架利用未充分利用的数据构建紧凑且信息丰富的核心集。我们引入了视觉特征作为核心集中的键，这些键作为锚点，通过不同的选择策略来识别需要更新的样本。通过利用支持集中的未充分利用的样本，我们更新选定核心集样本的键，使随机初始化的核心集在低计算成本下进化为更信息丰富的核心集。通过在粗粒度和细粒度图像分类基准上的广泛实验，我们展示了KeCO有效地提升了图像分类任务中的ICL性能，平均提高了超过20%。值得注意的是，我们在模拟在线场景下评估了KeCO，这种场景中强大的性能突显了我们框架在资源受限的实际场景中的实际价值。