LLM2D

摘要

深度网络经常被调整以适应新的任务，并持续从不断更新的数据流中学习。这种顺序训练需要整合新旧信息，这是一个主要通过保留最重要数据点（正式称为核心集）来解决的挑战。传统上，这些核心集由完整的样本组成，例如图像或句子。然而，最近的 Transformer 架构在标记上进行操作，导致了著名的断言：一张图像值 16x16 个词。直观地，并非所有这些标记都具有同等的信息量或记忆性。因此，我们超越核心集，提出在标记级别构建更深层次的数据摘要。我们分别命名的核心标记集既选择了信息量最大的数据点，又利用特征归因来仅存储其最相关的特征。我们证明了核心标记集在增量图像分类、开放式视觉问答和持续图像字幕中获得了显著的性能保留，同时显着减少了内存消耗。事实上，我们根据经验发现，1% 的数据核心标记集的性能与至少两倍大，甚至高达 10 倍大的核心集相当。