arXiv 论文列表

步骤融合：局部与全局相互引导

arXiv:2306.16950v3 公告类型: 替换-交叉摘要: 特征对齐是融合多模态数据的主要手段。我们提出了一种特征对齐方法，该方法能够完全融合多模态信息，通过逐步转移和扩展来自不同模态的特征信息，使其在特征空间中具有一致的表示。所提出的方法能够稳健地捕捉不同模态特征之间的高级交互，从而显著提升多模态学习的性能。我们还展示了该方法在多个任务上优于其他流行的多模态方案。对ETT和MIT-BIH心律失常数据集的实验评估表明，所提出的方法达到了最先进的性能。

发布时间: 9/23/2024

查看原文

在不降低性能的情况下，实现不同数据集之间的数据高效模型合并

模型合并作为一种通过结合不同训练模型的权重来创建新模型的创新方法，正引起广泛关注。尽管先前的研究表明，模型合并在单一数据集上使用不同随机种子训练的模型中表现良好，但不同数据集之间的模型合并问题仍未解决。本文尝试揭示在不同数据集上训练的模型合并的困难，并提出缓解措施。我们的实证分析表明，与单一数据集场景相比，在合并不同数据集上训练的模型时，需要访问数据集信息以实现高准确性。然而，使用完整数据集的要求不仅带来了显著的计算成本，而且在整合由他人开发和共享的模型时成为主要限制。为此，我们展示了数据集缩减技术，如核心集选择和数据集浓缩，能够有效减少模型合并的数据需求。在SPLIT-CIFAR10模型合并实验中，使用完整数据集时准确率提高了31%，使用采样子集时提高了24%，相比之下，不使用数据集时准确率显著提升。

发布时间: 9/23/2024

查看原文

预测每个时间序列行为的RNN单元结构最佳选择是什么？

时间序列预测在许多领域中具有至关重要的地位，这一点毋庸置疑。在处理时间序列预测任务时，最常用的机器学习模型是循环神经网络（RNNs）。通常，这些模型基于三种最流行的单元之一构建：ELMAN、长短期记忆（LSTM）或门控循环单元（GRU）。每个单元具有不同的结构，并意味着不同的计算成本。然而，目前尚不清楚为何以及何时使用每种RNN单元结构。实际上，尚未对所有可能的时间序列行为进行全面表征，也没有指导哪种RNN单元结构最适合每种行为。本研究的目标是双重的：它提出了几乎所有时间序列行为的全面分类法，并提供了针对每种时间序列行为的最佳RNN单元结构的见解。我们进行了两项实验：（1）通过在其基本架构中进行一项更改（移除、添加或替换一个单元组件），创建了11个LSTM-Vanilla单元的变体，评估并分析了每个组件的作用。（2）评估并分析了20种可能的RNN单元结构的性能。为了评估、比较和选择最佳模型，使用了不同的统计指标：基于误差的指标、基于信息准则的指标、基于朴素方法的指标和基于方向变化的指标。为了进一步增强我们对模型解释和选择的信心，使用了Friedman Wilcoxon-Holm符号秩检验。我们的结果主张在时间序列预测中使用和探索新创建的RNN变体，名为SLIM，由于其高准确性预测不同时间序列行为的能力，以及其简单结构设计，不需要昂贵的时间和计算资源。

发布时间: 9/23/2024

查看原文

强化学习中的自主目标检测与终止：以源项估计为例

强化学习在动态环境中的决策过程取得了革命性的进展，然而在没有明确反馈信号的情况下，它往往难以自主检测和实现目标。例如，在源项估计问题中，缺乏精确的环境信息使得提供明确的反馈信号以及定义和评估源位置的确定方式变得困难。为了应对这一挑战，我们开发了自主目标检测与终止（AGDC）模块，通过引入自我反馈机制，增强了各种强化学习算法在任务完成时自主检测和终止目标的能力。我们的方法通过近似代理的信念，有效地识别并终止未定义的目标，显著提升了强化学习算法在反馈有限的环境中的能力。为了验证我们方法的有效性，我们将AGDC与深度Q网络、近端策略优化和深度确定性策略梯度算法集成，并在源项估计问题上评估了其性能。实验结果表明，AGDC增强的强化学习算法在成功率、平均行进距离和搜索时间方面显著优于传统的统计方法，如信息论、熵论和双控制策略，以及非统计的随机动作选择方法。这些改进凸显了AGDC在复杂现实场景中的有效性和效率。

发布时间: 9/23/2024

查看原文

增强对抗攻击的可迁移性：基于梯度编辑的综合框架GE-AdvGAN+

可迁移对抗攻击对深度神经网络构成重大威胁，尤其是在黑盒场景中，内部模型信息无法访问。研究对抗攻击方法有助于提升防御机制的性能并探索模型的脆弱性。这些方法能够揭示并利用模型的弱点，推动更健壮架构的发展。然而，当前的可迁移攻击方法往往伴随着巨大的计算成本，限制了其在边缘计算场景中的部署和应用。对抗生成模型，如生成对抗网络（GANs），以其能够在初始训练阶段后无需重新训练即可生成样本的能力而著称。GE-AdvGAN是一种基于此原理的最新可迁移对抗攻击方法。本文提出了一种基于梯度编辑的新型通用可迁移攻击框架，命名为GE-AdvGAN+，该框架集成了几乎所有主流攻击方法，以增强可迁移性并显著减少计算资源消耗。我们的实验证明了该框架的兼容性和有效性。与基线AdvGAN相比，我们表现最佳的方法GE-AdvGAN++实现了平均ASR提升47.8。此外，它还超越了最新的竞争算法GE-AdvGAN，平均ASR增加了5.9。该框架还表现出更高的计算效率，达到2217.7 FPS，优于传统的BIM和MI-FGSM等方法。我们的GE-AdvGAN+框架的实现代码可在https://github.com/GEAdvGANP获取。

发布时间: 9/23/2024

查看原文

面向神经符号推理与松弛的概率归纳逻辑编程

arXiv:2408.11367v2 公告类型：替换摘要：许多归纳逻辑编程（ILP）方法无法从概率背景知识中学习程序，例如来自传感器数据或带有概率的神经网络。我们提出了Propper，它通过结合神经符号推理、用于假设选择的连续标准（BCE）和假设约束器的松弛（NoisyCombo）来扩展ILP，以处理有缺陷和概率性的背景知识。对于噪声图像中的关系模式，Propper可以从仅有的8个示例中学习程序。它在性能上优于二进制ILP和统计模型，如图神经网络。

发布时间: 9/23/2024

查看原文

FreqTSF：通过捕捉频率域内的变量内和变量间变化进行时间序列预测

时间序列预测（TSF）在电力转换、医疗监控和作物生长等各种应用中起着至关重要的作用。尽管深度学习方法在TSF方面取得了进展，但其预测长期序列的能力仍然有限。这种局限性源于未能同时考虑变量内和变量间的变化。为了应对这一挑战，我们引入了FreqBlock，它利用频域视角来捕捉变量内和变量间的变化。通过频率变换模块转换到频域后，设计了实部和虚部之间的频率交叉注意力，以获得增强的频率表示并捕捉变量内的变化。此外，使用Inception块来整合信息，从而捕捉不同变量之间的相关性。我们的主干网络FreqTSF通过连接多个FreqBlock采用残差架构，从而防止退化问题。理论上，我们证明了FreqTSF在每个FreqBlock计算中显著降低了时间和内存复杂度，从$\mathcal{O}(L^2)$降至$\mathcal{O}(L)$。在三个基准数据集上的实证评估显示，与最新的最先进方法相比，FreqTSF总体上相对均方误差（MSE）降低了30%，相对平均绝对误差（MAE）降低了22%。实现代码可在\url{https://github.com/HITshenrj/FreqTSF}获取。

发布时间: 9/23/2024

查看原文

MetaSumPerceiver：用于事实核查的多模态多文档证据摘要

arXiv:2407.13089v2 公告类型: 替换摘要: 核实现实世界中的声明通常需要审查多个多模态文档以评估声明的真实性，这是一项极其耗时且费力的任务。本文提出了一种摘要生成模型，旨在从多模态、多文档数据集中生成适用于事实核查的特定声明摘要。该模型以文档、图像和声明为输入，旨在辅助事实核查任务。我们引入了一种基于动态感知器的模型，能够处理来自多种模态且长度任意的输入。为了训练我们的模型，我们利用了一种新颖的基于强化学习的蕴含目标，以生成能够区分不同真实性标签的证据摘要。为了评估我们方法的有效性，我们在现有基准和我们贡献的新多文档声明数据集上进行了实验。我们的方法在MOCHEG数据集上的声明验证任务中比现有最先进的方法高出4.6%，并在我们的新Multi-News-Fact-Checking数据集上展示了强大的性能。

发布时间: 9/23/2024

查看原文

生成式人工智能投票：公平集体选择对大型语言模型偏差和不一致性的韧性

arXiv:2406.11871v3 公告类型: 替换摘要: 扩大审议和投票参与一直是直接民主和合法集体选择的基础。近期生成式人工智能（AI）和大语言模型（LLMs）的突破揭示了AI个人助手克服人类认知带宽限制的新能力，为大规模提供决策支持甚至直接代表人类选民提供了可能。然而，这种代表的质量以及在将集体决策委托给LLMs时显现的潜在偏见是一个令人担忧且亟需解决的挑战。通过在81个真实世界的投票选举中以高度逼真的方式模拟超过50,000个LLM投票角色，我们剖析了不同LLMs（GPT 3、GPT 3.5和Llama2）中的偏见本质。复杂的偏好投票格式显示出与简单多数选举相比显著的不一致性。然而，通过首次在现实世界中展示直接民主中选民的比例代表性，我们还能够证明公平的投票聚合方法，如平等份额，证明是一种双赢：对人类更公平的投票结果与更公平的AI代表性。这种新颖的内在关系对于在AI代表支持下低投票率和选民疲劳的进步场景中的民主韧性至关重要：通过恢复高度代表性的公平投票结果，弃权选民的影响得以缓解。这些跨学科的见解为科学、政策制定者和公民提供了宝贵的依据，以开发防范和增强民主创新中AI风险的保障措施。

发布时间: 9/23/2024

查看原文

使用随机超平面镶嵌的因果效应估计

匹配是从观测数据中估计因果效应的最简单方法之一。匹配技术通过比较具有相似协变量值但处理状态不同的个体对之间的观测结果来估计因果效应。然而，传统的匹配技术在高维协变量情况下由于维数灾难而不可靠。为了克服这一挑战，我们提出了一种简单、快速但非常有效的匹配方法，使用随机超平面镶嵌（RHPT）。首先，我们证明了RHPT表示是一个近似平衡得分——从而保持了强可忽略性假设——并提供了经验证据支持这一说法。其次，我们报告了大量实验的结果，表明使用RHPT的匹配优于传统的匹配技术，并且与最先进的深度学习方法在因果效应估计方面具有竞争力。此外，RHPT避免了深度神经网络训练所需的计算密集型训练。

发布时间: 9/23/2024

查看原文