arXiv 论文列表

作者: Irene Cannistraci, Emanuele Rodol\`a, Bastian Rieck

深度神经网络在不同模型之间以及自身不同层级之间往往学习到相似的内部表征。虽然网络间相似性已使模型拼接和合并等技术成为可能，但网络内相似性为设计更高效的架构提供了新的机遇。本文研究了这些内部相似性在不同神经架构不同层级之间的出现，表明相似性模式独立于所用数据集而出现。我们引入了一个简单的度量指标——块冗余度，用于检测冗余块，为未来的架构优化方法奠定了基础。在此基础上，我们提出了冗余块近似（RBA）框架，该框架使用更简单的变换来识别和近似一个或多个冗余计算块。我们证明了两个表征之间的变换 $\mathcal{T}$ 可以通过封闭形式有效地计算，并且足以用变换替换网络中的冗余块。RBA 减少了模型参数和时间复杂度，同时保持了良好的性能。我们使用各种预训练的基础模型和数据集，在视觉领域的分类任务中验证了我们的方法。

发布时间: 10/8/2024

查看原文

政府在促进人工智能部署后互联监控中的作用

作者: Merlin Stein, Jamie Bernardi, Connor Dunlop

基于语言的 AI 系统正在渗透到社会中，带来积极和消极的影响。减轻负面影响取决于准确的影响评估，而评估则需要建立在因果关系明确的经验证据基础之上，这些证据可以将 AI 使用与影响联系起来。互联的部署后监控结合了模型集成和使用、应用程序使用以及事件和影响方面的信息。例如，可以将思维链推理的推断时间监控与部门 AI 扩散、影响和事件的长期监控相结合。借鉴其他行业的的信息共享机制，我们重点介绍了政府可以收集以支持 AI 风险管理的示例数据源和特定数据点。

发布时间: 10/8/2024

查看原文

防御即服务：对抗后门图模型的黑盒防御

作者: Xiao Yang, Kai Zhou, Yuni Lai, Gaolei Li

随着大型图学习模型的趋势，企业主倾向于使用第三方提供的模型来为用户提供商业服务。然而，这些模型可能存在后门，恶意用户可以提交嵌入触发器的输入来操纵模型预测。现有的图后门防御存在几个局限性：1）依赖于模型相关细节，2）需要额外的模型微调，3）依赖于额外的可解释性工具，所有这些在严格的隐私政策下都是不可行的。为了解决这些局限性，我们提出了 GraphProt，它允许资源受限的企业主依赖第三方来避免对基于 GNN 的图分类器的后门攻击。我们的 GraphProt 与模型无关，只依赖于输入图。关键的见解是利用子图信息进行预测，从而减轻触发器引起的後門效应。GraphProt 包含两个部分：基于聚类的触发器消除和鲁棒子图集成。具体来说，我们首先提出特征拓扑聚类，旨在消除大多数异常子图（触发器）。此外，我们根据特征拓扑聚类设计子图采样策略，通过多数投票构建鲁棒分类器。在三种后门攻击和六个基准数据集上的实验结果表明，GraphProt 显着降低了后门攻击成功率，同时保留了模型在常规图分类任务上的准确性。

发布时间: 10/8/2024

查看原文

修补就够了：针对视觉-语言预训练模型的自然对抗性补丁

作者: Dehong Kong, Siyuan Liang, Xiaopeng Zhu, Yuansheng Zhong, Wenqi Ren

视觉语言预训练 (VLP) 模型在各个领域都取得了显著的成功，但它们仍然容易受到对抗性攻击。解决这些对抗性漏洞对于增强多模态学习中的安全性至关重要。传统上，针对 VLP 模型的对抗性方法涉及同时扰乱图像和文本。然而，这种方法面临着显著的挑战：首先，对抗性扰动往往无法有效地转化为现实世界场景；其次，对文本的直接修改非常明显。为了克服这些局限性，我们提出了一种新策略，该策略仅使用图像补丁进行攻击，从而保留原始文本的完整性。我们的方法利用来自扩散模型的先验知识来增强扰动的真实性和自然性。此外，为了优化补丁放置并提高攻击的有效性，我们利用交叉注意力机制，该机制通过生成注意力图来引导策略性补丁放置，从而封装跨模态交互。在图像到文本场景的白色盒子设置中进行的综合实验表明，我们提出的方法显著优于现有技术，实现了 100% 的攻击成功率。此外，它在涉及文本到图像配置的迁移任务中也表现出令人称赞的性能。

发布时间: 10/8/2024

查看原文

利用语法归纳进行语言理解和生成

作者: Jushi Kai, Shengyuan Hou, Yusheng Huang, Zhouhan Lin

近年来，语法归纳取得了显著进展。然而，尚不清楚归纳语法在何种程度上能够提升下游任务的实际性能。在这项工作中，我们提出了一种用于语言理解和生成的无监督语法归纳方法。我们构建了一个语法解析器来归纳句法结构和依存关系，该解析器在没有额外语法标注的情况下，同时在下游任务上进行训练。随后，将归纳的语法特征作为句法掩码嵌入到 Transformer 中，以引导自注意力机制。我们对多种机器翻译任务和自然语言理解任务进行了评估和应用。我们的方法在性能上优于原始 Transformer 和其他使用外部解析器增强的模型。实验结果表明，我们的方法在从头开始和预训练场景中都非常有效。此外，我们的研究强调了显式地对文本语法结构进行建模对神经网络模型的贡献。

发布时间: 10/8/2024

查看原文

无搜索的中国象棋人工智能精通之道

作者: Yu Chen, Juntong Lin, Zhichao Shu

我们开发了一种无需搜索算法的高性能中国象棋 AI。该 AI 已展现出与人类顶尖 0.1% 玩家水平相当的竞技能力。通过消除此类系统通常相关的搜索过程，该 AI 的每秒查询数 (QPS) 比基于蒙特卡罗树搜索 (MCTS) 算法的系统高出千倍以上，比基于 AlphaBeta 剪枝算法的系统高出百倍以上。AI 训练系统包含两个部分：监督学习和强化学习。监督学习提供了一个初始的人类般中国象棋 AI，而基于监督学习的强化学习将整个 AI 的实力提升到了一个新的水平。基于此训练系统，我们进行了足够多的消融实验，并发现：1. 相同参数量的 Transformer 架构在象棋方面比 CNN 具有更高的性能；2. 双方可能的走法作为特征可以极大地改善训练过程；3. 相比于纯自我博弈训练，选择性对手池会导致更快的提升曲线和更高的实力上限。4. 带有截止的价值估计 (VECT) 改进了原始 PPO 算法训练过程，我们将在文中给出解释。

发布时间: 10/8/2024

查看原文

基于自动任务生成，实现机器人操作的无监督技能发现

作者: Paul Jansonnie, Bingbing Wu, Julien Perez, Jan Peters

学习与物体交互的技能对于机器人操控至关重要。这些技能可以作为解决各种操控任务的有效先验知识。我们提出了一种新颖的技能学习方法，通过解决大量自主生成的、多样化的任务来发现可组合的行为。我们的方法学习让机器人能够持续而稳健地与环境中的物体进行交互的技能。发现的行为被嵌入到基元中，这些基元可以与分层强化学习组合起来，以解决未见过的操控任务。特别地，我们利用非对称自博弈来发现行为，并利用乘法组合策略来嵌入它们。我们将我们的方法与技能学习基线进行了比较，发现我们的技能更具交互性。此外，学习到的技能可以用来解决一组未见过的操控任务，无论是在仿真中还是在真实的机器人平台上。

发布时间: 10/8/2024

查看原文

TimeCNN：基于时间点的跨变量交互细化时间序列预测

作者: Ao Hu, Dongkai Wang, Yong Dai, Shiyi Qi, Liangjian Wen, Jun Wang, Zhi Chen, Xun Zhou, Zenglin Xu, Jiang Duan

时间序列预测广泛应用于各个领域。基于Transformer的模型在建模跨时间和跨变量交互方面展现出巨大潜力。然而，我们注意到多变量时间序列的跨变量相关性展现出多方面（正相关和负相关）且随时间动态变化的特点，而现有基于Transformer的模型并不能很好地捕捉到这一点。为了解决这个问题，我们提出了TimeCNN模型来细化跨变量交互，从而提高时间序列预测的准确性。其关键创新在于时间点独立性，即每个时间点都有一个独立的卷积核，允许每个时间点拥有独立的模型来捕捉变量之间的关系。这种方法有效地处理了正相关和负相关，并适应了变量关系随时间的演变。在12个真实世界数据集上进行的大量实验表明，TimeCNN始终优于最先进的模型。值得注意的是，我们的模型在计算需求（约减少60.46%）和参数数量（约减少57.50%）方面取得了显著降低，同时推理速度比基准iTransformer模型快3到4倍。

发布时间: 10/8/2024

查看原文

后编辑：用于高效零样本图像编辑的后验采样

作者: Feng Tian, Yixuan Li, Yichao Yan, Shanyan Guan, Yanhao Ge, Xiaokang Yang

在图像编辑领域，三大核心挑战依然存在：可控性、背景保留和效率。基于反转的方法依赖于耗时的优化来保留初始图像的特征，由于需要大量的网络推理，导致效率低下。相反，无反转方法缺乏对背景相似性的理论支持，因为它们绕过了保持初始特征以实现效率的问题。因此，这些方法都无法同时实现高效率和背景一致性。为了解决这些挑战和上述缺点，我们引入了 PostEdit，一种将后验方案融入扩散采样过程的方法。具体来说，引入了一个与初始特征和朗之万动力学相关的测量项，来优化由给定目标提示生成的估计图像。大量的实验结果表明，所提出的 PostEdit 实现了最先进的编辑性能，同时准确地保留了未编辑区域。此外，该方法既无反转也无训练，只需要大约 1.5 秒和 18 GB 的 GPU 内存即可生成高质量的结果。

发布时间: 10/8/2024

查看原文

生物物理景观特征的多模态融合策略

作者: Lucia Gordon, Nico Lang, Catherine Ressijac, Andrew Davies

多模态航空数据被用于监测自然系统，机器学习可以显著加速此类图像中景观特征的分类，从而有利于生态和保护。然而，这些多种模式如何在深度学习模型中融合仍然未得到充分探索。作为填补这一空白的一步，我们研究了三种融合策略（早期融合、后期融合和专家混合）来融合热成像、RGB 和 LiDAR 图像，使用这些三种模式下空间对齐的正射影像数据集。特别是，我们旨在绘制非洲稀树草原生态系统中三个生态相关的生物物理景观特征：犀牛粪堆、白蚁丘和水体。这三种融合策略的不同之处在于模式是早期融合还是后期融合，如果是后期融合，模型是为每个类别学习每个模式的固定权重，还是根据输入自适应地为每个类别生成权重。总体而言，三种方法的宏观平均性能相似，后期融合的 AUC 为 0.698，但它们的每类性能差异很大，早期融合在粪堆和水体方面取得了最佳召回率，而专家混合在丘陵方面取得了最佳召回率。

发布时间: 10/8/2024

查看原文