LLM2D

摘要

arXiv:2501.14183v2 通知类型: 交叉替换摘要：变体分词，即将每个变体独立地表示为单独的令牌，在多变量时间序列预测中取得了显著进步。然而，使用自注意力机制处理变体令牌会导致计算成本与变体数量的平方级增长，从而限制了其在大规模应用中的训练效率。为了解决这一问题，我们提出了一种简单且高效的策略VarDrop，该策略在训练过程中通过省略冗余变体令牌来减少令牌的使用量。VarDrop 适应性地排除给定批次内的冗余令牌，从而减少用于点积注意力的令牌数量，同时保留关键信息。具体来说，我们引入了k-主导频率哈希（k-DFH），它利用频域中排名靠前的主导频率作为哈希值，以高效地对表现出类似周期行为的变体令牌进行分组。然后，通过分层抽样从每个组中抽取代表性令牌。通过仅使用这些选择的令牌进行稀疏注意力，缩放点积注意力的计算成本显著降低。在公共基准数据集上的实验表明，VarDrop 在与现有高效基线比较时表现出色。