LLM2D
用于Transformer数据高效顺序训练的核心词集
Core Tokensets for Data-efficient Sequential Training of Transformers
作者: Subarnaduti Paul, Manuel Brack, Patrick Schramowski, Kristian Kersting, Martin Mundt
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05800v1

摘要

深度网络经常被调整以适应新的任务,并持续从不断更新的数据流中学习。这种顺序训练需要整合新旧信息,这是一个主要通过保留最重要数据点(正式称为核心集)来解决的挑战。传统上,这些核心集由完整的样本组成,例如图像或句子。然而,最近的 Transformer 架构在标记上进行操作,导致了著名的断言:一张图像值 16x16 个词。直观地,并非所有这些标记都具有同等的信息量或记忆性。因此,我们超越核心集,提出在标记级别构建更深层次的数据摘要。我们分别命名的核心标记集既选择了信息量最大的数据点,又利用特征归因来仅存储其最相关的特征。我们证明了核心标记集在增量图像分类、开放式视觉问答和持续图像字幕中获得了显著的性能保留,同时显着减少了内存消耗。事实上,我们根据经验发现,1% 的数据核心标记集的性能与至少两倍大,甚至高达 10 倍大的核心集相当。