arXiv 论文列表

作者: Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz

在计算机视觉任务中，特征通常来自不同的表示、领域和模态，例如文本、图像和视频。有效地融合这些特征对于稳健的性能至关重要，尤其是在拥有强大的预训练模型（如视觉语言模型）的情况下。然而，常见的融合方法，如连接、逐元素操作和非线性技术，往往无法捕捉结构关系、深度特征交互，并存在效率低下或跨领域特征错位的问题。在本文中，我们从高维特征空间转向低维、可解释的图空间，通过构建相似性图来编码不同层次的特征关系，例如剪辑、帧、块、标记等。为了捕捉更深层的交互，我们使用图幂展开并引入可学习的图融合算子来组合这些图幂，以实现更有效的融合。我们的方法以关系为中心，在同质空间中运行，并具有数学原理，类似于通过多线性多项式进行逐元素相似度得分聚合。我们展示了基于图的融合方法在视频异常检测中的有效性，表明了该方法在多表示、多模态和多领域特征融合任务中的强大性能。

发布时间: 10/3/2024

查看原文

RGD：基于多语言模型的代理调试器，通过细化和生成引导

作者: Haolin Jin, Zechao Sun, Huaming Chen

大型语言模型（LLMs）在代码生成任务中展现出巨大的潜力，而最近在提示工程方面的研究增强了 LLMs 对文本信息的理解能力。然而，确保生成代码的准确性通常需要程序员进行大量的测试和验证。虽然 LLMs 通常可以根据任务描述生成代码，但它们的准确性仍然有限，特别是对于需要更深入理解问题陈述和代码生成过程的复杂任务而言。这种局限性主要是由于 LLMs 需要同时理解文本并生成语法和语义上正确的代码，而没有能力自动优化代码。在现实世界的软件开发中，程序员很少能根据任务描述一次性生成完美无缺的代码，他们依靠迭代反馈和调试来优化程序。受此过程启发，我们引入了一种新型的基于 LLMs 的代码生成和自动调试代理架构：精炼与引导调试 (RGD)。RGD 框架是一个基于多 LLMs 的代理调试器，它利用三个不同的 LLM 代理——引导代理、调试代理和反馈代理。RGD 将代码生成任务分解为多个步骤，确保更清晰的工作流程，并能够基于自我反思和反馈进行迭代代码优化。实验结果表明，RGD 在代码生成方面表现出非凡的能力，在 HumanEval 数据集上取得了 9.8% 的改进，在 MBPP 数据集上取得了 16.2% 的改进，优于最先进的方法和传统的直接提示方法。我们强调了 RGD 框架在增强 LLMs 自主生成和优化代码能力方面的有效性。

发布时间: 10/3/2024

查看原文

从贝叶斯决策理论视角看流级流量匹配

作者: Ganchao Wei, Li Ma

流匹配 (FM) 是一类用于拟合连续归一化流 (CNF) 的训练算法。一种标准的 FM 方法，称为条件流匹配 (CFM)，利用了 CNF 的边缘向量场可以通过拟合最小二乘回归到所谓的条件向量场来学习的事实，该条件向量场是在流路径的一端或两端给定的。我们表明，从参数估计的贝叶斯决策理论角度来看 CFM 训练，为 CFM 算法的推广打开了大门。我们通过引入一种基于定义条件概率路径的 CFM 算法来提出一种这样的扩展，该路径基于我们所称的“流”，即连接噪声和观测数据对的潜在随机路径的实例。此外，我们主张使用高斯过程 (GP) 对这些潜在流进行建模。GP 的独特分布特性，特别是 GP 的速度仍然是 GP 的事实，允许从得到的流增强条件概率路径中抽取样本，而无需模拟实际流，因此保留了 CFM 训练的“无模拟”性质。我们表明，这种 CFM 的推广可以显着降低估计的边缘向量场的方差，而计算成本适中，从而在常见的指标下提高生成样本的质量。此外，我们表明，在流上采用 GP 允许灵活地链接多个相关的训练数据点（例如，时间序列）并合并额外的先验信息。我们通过模拟和对两个手写图像数据集的应用来实证验证我们的主张。

发布时间: 10/3/2024

查看原文

跨词元范围优化学习率的扩展

作者: Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song

最先进的大语言模型 (LLM) 依靠规模化——模型规模、数据集规模和集群规模的扩大来实现。对于最大的运行来说，广泛地调整超参数在经济上是不可行的。相反，必须从较小的实验中推断或*迁移*近似最优的超参数。杨等人研究了不同模型规模之间的超参数迁移。然而，不同数据集规模（或令牌范围）之间的超参数迁移尚未得到研究。为了弥补这一不足，我们对最优学习率 (LR) 如何依赖于 LLM 训练中的令牌范围进行了大规模的实证研究。我们首先证明最优 LR 会随着令牌范围发生显著变化——更长的训练需要更小的 LR。其次，我们证明最优 LR 遵循一个缩放规律，并且可以通过这种缩放规律从较短的范围准确地估计出较长范围的最优 LR。我们还提供了一个经验法则，用于在当前实践的基础上零开销地将 LR 迁移到不同的令牌范围。最后，我们提供了证据表明 LLama-1 使用了过高的 LR，并估计了由此带来的性能损失。因此，我们认为跨数据规模的超参数迁移是 LLM 训练中一个重要且被忽视的组成部分。

发布时间: 10/3/2024

查看原文

DropEdge并非万无一失：针对有符号图神经网络的有效增强方法

作者: Zeyu Zhang, Lu Li, Shuyan Wan, Sijie Wang, Zhiyi Wang, Zhiyuan Lu, Dong Hao, Wanli Li

本文探讨了带符号图，这种图通过带有正负号的边来模拟友好或敌对关系，重点关注链接符号预测任务。虽然带符号图神经网络（SGNNs）取得了进展，但它们面临着图稀疏性和三角形不平衡等挑战。作者建议使用数据增强（DA）技术来解决这些问题，尽管许多现有方法由于缺乏侧边信息而不适用于带符号图。他们强调，随机DropEdge方法是一种罕见且适用于带符号图的DA方法，但它并不能提高链接符号预测性能。为了应对这一问题，他们引入了带符号图增强（SGA）框架，该框架包括一个结构增强模块，用于识别候选边，以及一个策略，用于选择有益的候选边，最终提高了SGNN的训练效果。实验结果表明，SGA显著提升了SGNN模型的性能，在Slashdot数据集上，SGCN的F1-micro指标提高了32.3%。

发布时间: 10/3/2024

查看原文

RMLR：将多项式逻辑回归扩展到一般几何空间

作者: Ziheng Chen, Yue Song, Rui Wang, Xiaojun Wu, Nicu Sebe

黎曼神经网络将深度学习技术扩展到黎曼空间，在机器学习领域引起了广泛关注。为了更好地对流形值特征进行分类，研究人员开始将欧几里德多项式逻辑回归（MLR）扩展到黎曼流形。然而，现有方法由于过度依赖特定几何性质而应用范围有限。本文提出了一种在一般几何上设计黎曼 MLR 的框架，称为 RMLR。我们的框架只需要最少的几何性质，因此具有广泛的适用性，可以与各种几何形状一起使用。具体来说，我们在对称正定 (SPD) 流形和特殊正交群（即旋转矩阵集）上展示了我们的框架。在 SPD 流形上，我们在五种类型的幂变形度量下开发了五个 SPD MLR 族。在旋转矩阵上，我们基于流行的双不变度量提出了李氏 MLR。在不同的黎曼骨干网络上进行的大量实验验证了我们框架的有效性。

发布时间: 10/3/2024

查看原文

超越单音频：推动音频大型语言模型中的多音频处理

作者: Yiming Chen, Xianghu Yue, Xiaoxue Gao, Chen Zhang, Luis Fernando D'Haro, Robby T. Tan, Haizhou Li

近年来，各种音频大型语言模型 (ALLM) 被探索用于使用单个统一模型同时解决不同的音频任务。虽然现有的 ALLM 评估主要集中在单音频任务上，但现实世界中的应用通常涉及同时处理多个音频流。为了弥合这一差距，我们提出了第一个多音频评估 (MAE) 基准，该基准包含来自 11 个多音频任务的 20 个数据集，涵盖语音和声音场景。MAE 上的综合实验表明，现有的 ALLM 虽然在理解单个音频输入中的主要音频元素方面功能强大，但在处理多音频场景方面却很吃力。为此，我们提出了一种新型的多音频大型语言模型 (MALLM)，通过在我们提出的合成数据上进行判别学习来捕获多个相似音频之间的音频上下文。结果表明，所提出的 MALLM 优于所有基线，并且在不依赖人工标注的情况下使用合成数据实现了高数据效率。所提出的 MALLM 为 ALLM 开启了迈向多音频处理时代的大门，让我们更接近于在机器中复制人类的听觉能力。

发布时间: 10/3/2024

查看原文

具身RAG：用于检索和生成的通用非参数具身记忆

作者: Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk

机器人探索和学习的范围无极限，但所有这些知识都需要可搜索和可操作。在语言研究领域，检索增强生成 (RAG) 已成为大规模非参数知识的“工作马”，但现有技术无法直接迁移到具身领域，因为具身领域是多模态的，数据高度相关，感知需要抽象。为了应对这些挑战，我们引入了 Embodied-RAG，这是一个框架，它使用非参数记忆系统增强了具身代理的基础模型，该系统能够自主构建用于导航和语言生成的层次化知识。Embodied-RAG 处理跨不同环境和查询类型的各种空间和语义分辨率，无论针对特定对象还是环境的整体描述。Embodied-RAG 的核心是，其记忆结构为语义森林，存储不同详细程度的语言描述。这种层次化组织使系统能够在不同机器人平台上有效地生成上下文敏感的输出。我们证明了 Embodied-RAG 有效地将 RAG 桥接到机器人领域，成功处理了跨 19 个环境的 200 多个解释和导航查询，突出了其作为具身代理通用非参数系统的潜力。

发布时间: 10/3/2024

查看原文

基于领域特定小型语言模型的跨领域内容生成

作者: Ankit Maloo, Abhinav Garg

使用小型语言模型生成特定领域的内容面临着挑战，尤其是在处理多个不同数据集且重叠度很低的情况下。在本研究中，我们探索了使小型语言模型能够为两个不同领域生成连贯且相关的输出的方法：故事（数据集 A）和食谱（数据集 B）。我们的初步实验表明，对每个数据集分别训练模型可以产生令人满意的结果，每个模型在其领域内生成适当的内容。我们发现，与使用通用分词器相比，使用针对每个数据集定制的分词器可以显著提高生成质量。使用低秩自适应（LoRA）或标准微调将单个模型适应两个领域的方法并未产生实质性结果，通常无法产生有意义的输出。此外，对模型的现有权重不进行冻结的全面微调会导致灾难性遗忘，即模型会丢失先前学习的信息，并且只保留来自新数据的信息。为了克服这些挑战，我们采用了一种知识扩展策略：仅使用额外的参数进行训练。这种方法使模型能够根据要求生成故事和食谱，有效地处理多个领域，而不会遭受灾难性遗忘。我们的发现表明，使用冻结层的知识扩展是一种有效的方法，使小型语言模型能够跨不同数据集生成特定领域的内容。这项工作有助于开发高效的多领域语言模型，并提供有关在小型架构中管理灾难性遗忘的见解。

发布时间: 10/3/2024

查看原文

视觉识别中参数高效迁移学习 (PETL) 的统一实证研究：经验教训

作者: Zheda Mai, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Li Zhang, Wei-Lun Chao

近年来，参数高效迁移学习（PETL）因预训练模型规模不断扩大以及对下游任务进行微调 (FT) 以获得更高性能的需求而备受关注。这种社区范围内的热潮催生了大量方法。然而，缺乏对这些方法的性能和适用场景进行系统性研究，导致何时应用 PETL 以及使用哪种方法等问题仍然悬而未决。在本文中，我们对 Vision Transformers 上下文中具有代表性的 PETL 方法进行了统一的实证研究。我们系统地调整了它们的超参数，以公平地比较它们在下游任务上的准确性。我们的研究不仅提供了一份有价值的用户指南，而且还揭示了一些新的见解。首先，如果仔细调整，不同的 PETL 方法可以在低样本基准 VTAB-1K 上获得相似的准确率。这包括像 FT 偏差项这样被认为较差的简单方法。其次，尽管准确率相似，但我们发现 PETL 方法犯了不同的错误并做出了不同的高置信度预测，这可能是由于它们不同的归纳偏差。这种不一致（或互补性）为集成方法提供了机会，我们对此进行了初步尝试。第三，超越常用的低样本任务，我们发现 PETL 在多样本情况下也很有用——它使用更少的可学习参数，实现了与全 FT 相当甚至更好的准确率。最后但并非最不重要的是，我们研究了 PETL 保留预训练模型对分布变化（例如，CLIP 主干）的鲁棒性的能力。也许并不令人惊讶的是，PETL 方法优于单独的全 FT。然而，通过权重空间集成，完全微调的模型可以更好地平衡目标（即下游）分布和分布变化性能，这为 PETL 的未来研究方向指明了方向。

发布时间: 10/3/2024

查看原文