LLM2D
高效模型无关的多组等变网络
Efficient Model-Agnostic Multi-Group Equivariant Networks
作者: Razan Baltaji, Sourya Basu, Lav R. Varshney
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2310.09675v2

摘要

构建模型无关的群等变网络,例如 equitune(Basu 等人,2023b)及其推广(Kim 等人,2023),对于大型乘积群来说计算成本可能很高。我们通过提供针对两个相关问题的有效模型无关等变设计来解决这个问题:第一个问题是网络有多个输入,每个输入可能都有不同的群作用于它们;第二个问题是只有一个输入,但作用于它的群是一个大型乘积群。对于第一个设计,我们首先考虑一个线性模型,并刻画满足该约束的整个等变空间。这种刻画产生了一个不同通道之间的新型融合层,该层满足一个不变性-对称性 (IS) 约束,我们称之为 IS 层。然后,我们类似于 equitune,将此设计扩展到线性模型之外,包括等变层和 IS 层。我们还证明 IS 层是等变-对称函数的通用逼近器。受第一个设计的启发,我们使用 IS 属性的概念为作用于单个输入的大型乘积群设计了第二个有效的模型无关等变设计。对于第一个设计,我们在多图像分类上进行了实验,其中每个视图都独立地进行变换,例如旋转。我们发现等变模型对这种变换具有鲁棒性,并且在其他情况下表现出色。对于第二个设计,我们考虑了三个应用:SCAN 数据集上语言组合性到乘积群;GPT-2 中自然语言生成的公平性以解决交集性;以及 CLIP 的鲁棒零样本图像分类。总的来说,我们的方法简单且通用,与 equitune 及其变体相比具有竞争力,同时计算效率更高。