arXiv 论文列表

作者: Akshat Gupta, Dev Sajnani, Gopala Anumanchipalli

ROME和MEMIT通常被认为是两种不同的模型编辑算法，它们的主要区别在于是否能够进行批量编辑。本文将这两种算法统一在一个概念框架下，针对我们称之为“保持-记忆”的目标进行优化。ROME使用等式约束来优化该目标以一次执行一个编辑，而MEMIT则采用更灵活的最小二乘约束来允许批量编辑。我们对ROME进行了推广，并以EMMET（Transformer的等式约束批量模型编辑算法）的形式，使用等式约束实现了批量编辑，这是一种新的批量内存编辑算法。EMMET可以执行批量大小高达10,000的批量编辑，其在多个维度上的性能与MEMIT非常相似。通过引入EMMET，我们真正统一了ROME和MEMIT，并表明这两种算法在优化目标、能力（单次和批量编辑）、模型编辑性能和局限性方面是等效的。

发布时间: 10/10/2024

查看原文

S-JEPA：基于动态空间注意力实现无缝跨数据集迁移

作者: Pierre Guetschel, Thomas Moreau, Michael Tangermann

受脑电信号处理中无缝跨数据集迁移的挑战启发，本文提出了一项关于联合嵌入预测架构 (JEPA) 使用的探索性研究。近年来，自监督学习已成为各种领域迁移学习的一种很有前景的方法。然而，其在脑电信号中的应用仍未得到充分探索。在本文中，我们介绍了用于表示脑电图记录的信号-JEPA，其中包括一种新颖的特定领域空间块掩蔽策略和三种用于下游分类的新型架构。该研究在一个包含 54 名受试者的数据集上进行，模型的下游性能在三种不同的脑机接口范式（运动想象、事件相关电位和稳态视觉诱发电位）上进行评估。我们的研究为 JEPA 在脑电信号编码中的潜力提供了初步证据。值得注意的是，我们的结果突出了空间滤波对准确下游分类的重要性，并揭示了预训练样本长度的影响，但掩蔽大小对下游性能没有影响。

发布时间: 10/10/2024

查看原文

奖励引导的潜在一致性蒸馏

作者: Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang

潜在一致性蒸馏 (LCD) 已成为一种很有前景的有效文本到图像合成范式。通过从预训练的教师潜在扩散模型 (LDM) 中蒸馏潜在一致性模型 (LCM)，LCD 能够在仅 2 到 4 个推理步骤内生成高保真图像。然而，LCM 的高效推理是以牺牲样本质量为代价的。在本文中，我们提出通过在训练过程中将 LCM 的输出与人类偏好对齐来补偿质量损失。具体来说，我们引入了奖励引导的 LCD (RG-LCD)，它通过用最大化与 LCM 单步生成相关的奖励的目标来增强原始 LCD 损失，从而将奖励模型 (RM) 的反馈集成到 LCD 过程中。经人类评估验证，当使用好的 RM 的反馈进行训练时，我们的 RG-LCM 的 2 步生成比教师 LDM 的 50 步 DDIM 样本更受人类青睐，这意味着推理速度提高了 25 倍，而不会损失质量。由于直接针对可微 RM 进行优化可能会导致过度优化，我们通过提出使用潜在代理 RM (LRM) 来克服这一困难。这个新组件充当中间体，连接我们的 LCM 和 RM。根据经验，我们证明将 LRM 集成到我们的 RG-LCD 中成功避免了生成图像中的高频噪声，这有助于提高 MS-COCO 上的 Fr´echet Inception Distance (FID) 和 HPSv2 测试集上的 HPSv2.1 分数，超过了基线 LCM 达到的分数。

发布时间: 10/10/2024

查看原文

DSEG-LIME：基于分层数据驱动分割的图像解释改进

作者: Patrick Knab, Sascha Marton, Christian Bartelt

可解释人工智能对于揭示复杂机器学习模型的决策过程至关重要。LIME（局部可解释模型无关解释）是一个著名的用于图像分析的XAI框架。它利用图像分割来创建特征，以识别与分类相关的区域。因此，分割质量差会影响解释的一致性，并削弱分割的重要性，从而影响整体的可解释性。为了解决这些挑战，我们引入了DSEG-LIME（数据驱动分割LIME），其特点是：i）数据驱动的分割，用于生成人类可识别的特征；ii）通过组合进行的分层分割过程。我们在ImageNet数据集的图像上预训练的模型（无领域特定知识的场景）上对DSEG-LIME进行了基准测试。分析包括使用已建立的XAI指标进行定量评估，并通过用户研究进行定性评估。我们的研究结果表明，DSEG在大多数XAI指标上都表现优异，并增强了解释与人类可识别概念的一致性，从而显著提高了可解释性。代码可在以下网址获取：https://github.com/patrick-knab/DSEG-LIME。

发布时间: 10/10/2024

查看原文

辅助分类器提升持续学习的稳定性和效率

作者: Filip Szatkowski, Fei Yang, Bart{\l}omiej Twardowski, Tomasz Trzci\'nski, Joost van de Weijer

持续学习对于动态环境中的应用至关重要，在这些环境中，机器学习模型必须适应不断变化的数据分布，同时保留先前任务的知识。尽管取得了重大进展，但灾难性遗忘——随着学习新信息，先前任务的性能下降——仍然是一个关键挑战。在这项工作中，我们研究了持续学习过程中中间神经网络层的稳定性，并探索了辅助分类器 (AC) 如何利用这种稳定性来提高性能。我们表明，早期网络层在学习过程中保持更稳定，特别是对于较旧的任务，并且应用于这些层的 AC 可以胜过标准分类器在过去任务上的表现。通过将 AC 集成到几种持续学习算法中，我们在标准基准测试中证明了持续且显著的性能改进。此外，我们探索了动态推理，表明 AC 增强的持续学习方法可以将计算成本降低高达 60%，同时保持或超过标准方法的准确性。我们的研究结果表明，AC 为增强持续学习模型提供了一条有前景的途径，既提高了性能，又能够适应在可能需要这种灵活性的环境中的网络计算。

发布时间: 10/10/2024

查看原文

重构ROME：解决顺序模型编辑中的模型崩溃问题

作者: Akshat Gupta, Sidharth Baskaran, Gopala Anumanchipalli

基于秩一模型编辑（ROME）的最新研究表明，该算法无法编辑某些事实而不会破坏模型。此类编辑以前被称为失效编辑，会导致模型立即崩溃，并限制ROME用于顺序编辑。本文表明，失效编辑是ROME实现中不规则性的结果。本文提供了一个更稳定的ROME实现，我们称之为r-ROME，并表明在使用r-ROME进行大规模顺序编辑时，不再观察到模型崩溃，同时与ROME的原始实现相比，进一步提高了模型编辑的泛化能力和局部性。我们还提供了失效编辑背后原因的详细数学解释。

发布时间: 10/10/2024

查看原文

目标组合：评估基于视觉的模型在目标到背景组合变化方面的鲁棒性

作者: Hashmat Shadab Malik, Muhammad Huzaifa, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan

鉴于近期基于视觉的模型大规模多模态训练及其泛化能力，理解其鲁棒性程度对于其实际部署至关重要。本研究评估了当前基于视觉的模型对不同对象与背景上下文变化的适应能力。大多数鲁棒性评估方法都引入了合成数据集来诱导对象特征（视角、尺度、颜色）的变化，或者利用图像变换技术（对抗性变化、常见损坏）对真实图像进行处理以模拟分布变化。最近的一些工作探索了利用大型语言模型和扩散模型来生成背景变化。然而，这些方法要么缺乏对变化的控制，要么会扭曲对象的语义，使其不适合这项任务。相比之下，我们的方法可以在保留对象原始语义和外观的同时，诱导对象与背景的多样化变化。为了实现这一目标，我们利用文本到图像、图像到文本和图像到分割模型的生成能力，自动生成广泛的对象与背景变化。我们通过修改文本提示或优化文本到图像模型的潜在变量和文本嵌入来诱导自然和对抗性背景变化。我们制作了标准视觉数据集（ImageNet、COCO）的各种版本，在图像中加入多样化和真实的背景，或在背景中引入颜色、纹理和对抗性变化。我们进行了大量的实验，以分析基于视觉的模型在不同任务中对对象与背景上下文变化的鲁棒性。代码：https://github.com/Muhammad-Huzaifaa/ObjectCompose。

发布时间: 10/10/2024

查看原文

面向知识增强的零样本问答的证据焦点事实摘要

作者: Sungho Ko, Hyunjin Cho, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee

近期研究探索利用知识图谱（KG）增强大型语言模型（LLM）的问答（QA）性能，然而结构化KG的语义化表达仍然具有挑战性。现有的方法，例如将三元组形式的事实转换为三元组形式或自由文本形式，存在一些问题。这些问题包括由于实体或关系重复导致证据密度降低，以及由于无法强调关键证据导致证据清晰度降低。为了解决这些问题，我们提出了EFSum，一个面向证据的事实摘要框架，用于增强知识增强型LLM的问答性能。我们通过蒸馏和偏好对齐优化一个开源LLM作为事实摘要器。我们的大量实验表明，EFSum提高了LLM的零样本QA性能，并且可以同时保证摘要的有用性和忠实性。

发布时间: 10/10/2024

查看原文

开放图：迈向开放图基础模型

作者: Lianghao Xia, Ben Kao, Chao Huang

图学习已成为包括推荐系统和社交网络分析在内的各个领域的关键技术。图神经网络 (GNN) 已成为编码结构信息并提高链接预测和节点分类等任务性能的有前景的技术。然而，一个关键挑战仍然存在：难以泛化到具有不同属性的未见图数据。在这项工作中，我们提出了一种新颖的图基础模型，称为 OpenGraph，以应对这一挑战。我们的方法解决了几个技术障碍。首先，我们利用大型语言模型 (LLM) 增强数据增强，以克服现实场景中的数据稀缺性。其次，我们引入了一种统一的图标记器，使模型能够有效地泛化到不同的图数据，即使在训练过程中遇到未见的属性也是如此。第三，我们开发的可扩展图转换器捕获全局拓扑上下文中的节点间依赖关系。大量的实验验证了我们框架的有效性。通过使 OpenGraph 适应新的图特性并理解不同的图，我们的方法在各种设置下实现了显著的零样本图学习性能。我们在 https://github.com/HKUDS/OpenGraph 发布了模型实现。

发布时间: 10/10/2024

查看原文

RoboEXP：基于交互式探索的用于机器人操作的动作条件场景图

作者: Hanxiao Jiang, Binghao Huang, Ruihai Wu, Zhuoran Li, Shubham Garg, Hooshang Nayyeri, Shenlong Wang, Yunzhu Li

我们引入了一种新颖的交互式场景探索任务，其中机器人自主探索环境并生成一个动作条件场景图 (ACSG)，该图捕获了底层环境的结构。ACSG 同时考虑了场景中的低级信息（几何和语义）和高级信息（不同实体之间基于动作的关系）。为此，我们提出了机器人探索 (RoboEXP) 系统，该系统结合了大型多模态模型 (LMM) 和显式内存设计来增强我们系统的功能。机器人会推理探索对象的“什么”和“如何”，通过交互过程积累新信息，并逐步构建 ACSG。利用构建的 ACSG，我们证明了我们的 RoboEXP 系统在促进涉及刚性物体、铰接物体、嵌套物体和可变形物体的各种现实世界操作任务方面的有效性和效率。

发布时间: 10/10/2024

查看原文