arXiv 论文列表

作者: Wei Li, Pin-Yu Chen, Sijia Liu, Ren Wang

arXiv:2406.05826v2 安全类型: 交叉替换摘要：深度神经网络容易受到后门攻击的影响，攻击者可以通过在训练数据中插入恶意样本来操控模型预测。目前，仍然存在一个显著的挑战，即识别可疑的训练数据以揭示潜在的后门样本。在本文中，我们提出了一种新颖的方法——基于不确定性预测偏移后门检测（PSBD），该方法只需少量未标记的干净验证数据即可。PSBD 的灵感来自一个令人着迷的预测偏移（PS）现象，即在推理时启用了 Dropout 层时，中毒模型对干净数据的预测往往会远离真实标签而偏向某些其他标签，而后门样本则表现出较少的 PS。我们假设 PS 是由神经元偏差效应引起的，使神经元倾向于某些类别的特征。PSBD 通过计算预测偏移不确定性（PSU），即在模型推理过程中启用和禁用 Dropout 层时概率值的方差来识别后门的训练样本。进行了广泛实验以验证 PSBD 的有效性和效率，其性能在主流检测方法中处于领先地位。代码可在 https://github.com/WL-619/PSBD 获取。

发布时间: 4/17/2025

查看原文

多模态乐高：跨拓扑结构和模态的模型合并与微调在生物医学领域的应用

作者: Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik

arXiv:2405.19950v2 多模态类型：替换交叉摘要：在物理、化学或生物系统中学习整体计算表示需要能够处理同一模型中来自不同分布和模式的信息的能力。因此，对于超越视觉和语言的序列、图、时间序列或表格数据等模式，对多模态机器学习模型的需求显著增加。尽管有许多可用的多模态融合和对齐方法，但大多数方法需要端到端训练，其规模与模式数量呈 quadratically 增长，无法处理训练集中高模式不平衡的情况，或者过于拓扑特定，使得它们在许多生物医学学习任务中过于限制性。本文提出了一种通用的多模态融合框架 MM-Lego，可以在几乎没有或最小的微调的情况下将任何一组编码器转换为具有竞争力的多模态模型。我们通过引入任何单模态编码器的包装器来实现这一点，该包装器强制模态表示之间的形状一致性。它通过在频域中学习特征来协调这些表示，以使模型合并时信号干扰最小。我们展示了 MM-Lego 的以下几点：1）可以作为一种模型合并方法，在没有任何微调的情况下，达到与端到端融合模型相当的性能，2）可以在任何单模态编码器上操作，3）这是一种融合方法，在最小的微调下，在七个数据集中有五个数据集上超过了所有基准。

发布时间: 4/17/2025

查看原文

图像为 inquiry：探索多模态数据集以进行对话推荐

作者: Se-eun Yoon, Hyunsik Jeon, Julian McAuley

arXiv:2405.14142v2 多模态数据集类型: 替换-交叉摘要: 我们引入了一个多模态数据集，其中用户通过图片来表达他们的偏好。这些图片涵盖了从风景到艺术描绘等多种视觉表现形式。用户请求推荐能够唤起类似图片情感的书籍或音乐，并通过点赞的方式由社区来认可这些推荐。该数据集支持两种推荐任务：标题生成和多项选择。我们的实验结果显示，大型基础模型在这两项任务中存在局限性。特别是在这些任务中，视觉-语言模型并没显示比仅使用描述的语言模型有显著的优势，我们认为这是由于视觉能力的未充分利用所致。为了更好地利用这些能力，我们提出了链条图像提示的方法，这导致了显著的改进。我们发布了我们的代码和数据集。

发布时间: 4/17/2025

查看原文

使用自监督强化学习的知识图谱推理

作者: Ying Ma, Owen Burns, Mingqiu Wang, Gang Li, Nan Du, Laurent El Shafey, Liqiang Wang, Izhak Shafran, Hagen Soltau

arXiv:2405.13640v2 宣告类型: 替换-交叉摘要：强化学习（RL）是一种在不完整知识图谱（KGs）中寻找推理路径的有效方法。为了克服大量动作空间的挑战，在强化学习训练阶段之前，提出了一种自监督预训练方法来预热策略网络。为了缓解通用自监督强化学习（SSRL）中的分布不匹配问题，在我们的监督学习（SL）阶段，代理基于策略网络选择动作并从生成的标签中学习；这种标签的自我生成是自监督名称背后的直觉。通过这种训练框架，我们SL目标的信息密度增加，并防止代理陷入早期奖励路径中。我们的自监督强化学习（SSRL）方法通过结合SL在预训练中实现的广泛覆盖来提高RL性能，因为SL目标的广度使其单独训练代理是不可能的。我们证明，我们的SSRL模型在四个大型基准KG数据集的所有Hits@k和平均倒数排名（MRR）指标上至少可以达到当前最先进结果。该SSRL方法可以作为任何KGR任务的插件使用。我们采用两种RL架构，即MINERVA和MultiHopKG作为基准RL模型，并实验证明，我们的SSRL模型在这四个KG推理任务上始终优于两个基准模型。论文的完整代码可在 https://github.com/owenonline/Knowledge-Graph-Reasoning-with-Self-supervised-Reinforcement-Learning 获取。

发布时间: 4/17/2025

查看原文

未来意识下的安全主动学习：使用高斯过程学习时间变异系统

作者: Markus Lange-Hegermann, Christoph Zimmer

arXiv:2405.10581v2 安全学习类型: 替换-交叉摘要：实验探索具有安全约束的高成本系统，这在工程应用中很常见，是一项具有挑战性的任务。数据驱动模型提供了有望解决这一问题的解决方案，但收集所需的足够数据仍然是昂贵的，并且可能会有潜在的安全隐患。因此，安全主动学习技术变得至关重要，它能够使用最少的高成本数据点学习高质量的模型，同时保持高度安全。本文介绍了一种针对时间变化系统的安全主动学习框架，该框架可以解决漂移、季节性变化以及由于动态行为而导致的复杂性问题。所提出的时态综合均方预测误差（T-IMSPE）方法最小化当前和未来状态的后验方差，并在时间域内优化信息收集。实证结果通过玩具示例和现实世界的例子突显了T-IMSPE在模型质量方面的优势。最新的高斯过程与T-IMSPE兼容。我们的理论贡献包括明确指出哪些高斯过程内核、领域和权重措施适用于T-IMSPE，甚至适用于其前身IMSPE，而不具备时间感知能力。

发布时间: 4/17/2025

查看原文

具有不确定节点特征和不确定图结构的图卷积网络的形式验证

作者: Tobias Ladner, Michael Eichelbeck, Matthias Althoff

arXiv:2404.15065v2 宣告类型: replace-cross 摘要：图神经网络由于其独特的能力，能够在图结构化数据上进行处理，正在机器学习领域变得越来越受欢迎。它们还被应用于自然环境，其中会不可避免地发生扰动。然而，这些扰动要求我们在将其部署在安全关键环境中之前，对神经网络进行形式验证，因为神经网络容易受到对抗性攻击的影响。虽然存在对神经网络进行形式验证的研究，但在存在节点特征和图结构不确定性的情况下，对通用图卷积网络架构在多步消息传递步骤中的鲁棒性进行验证的工作仍然不存在。本研究通过在可达性分析中显式地保留底层计算中所有元素的非凸依赖关系，以矩阵多项式区形为工具解决了这一研究缺口。我们在三个流行的基准数据集上展示了我们的方法。

发布时间: 4/17/2025

查看原文

COMBO：组成式世界模型在体态多智能体合作中的应用

作者: Hongxin Zhang, Zeyuan Wang, Qiushi Lyu, Zheyuan Zhang, Sunli Chen, Tianmin Shu, Behzad Dariush, Kwonjoon Lee, Yilun Du, Chuang Gan

arXiv:2404.10775v3 通告类型: 替换-交叉摘要: 在本文中，我们探讨了基于代理的多代理合作问题，其中去中心化的代理仅通过自中心视野（ego-centric视角）必须进行合作。在这种设定下有效规划时，与单一代理场景中学习世界动力学不同，我们需要在仅凭部分自中心视觉观察的情况下，模拟给定任意数量代理动作的世界动力学。为了应对这种部分可观测性问题，我们首先训练生成模型，以估计给定部分自中心观察下的总体世界状态。为进一步在该世界状态下模拟多个动作集，我们提出了一种通过将多个代理的自然可组合联合动作进行因式分解，并基于世界状态进行组合生成视频的学习方法来学习多代理合作的分解式世界模型。利用这种分解式世界模型，并结合视觉语言模型来推断其他代理的行动，我们可以使用树搜索过程整合这些模块，促进在线合作规划。我们在包含2-4个代理的三个具有挑战性的基准上评估了我们的方法。结果表明，我们的分解式世界模型是有效的，该框架使基于代理能够高效地与不同代理在各种任务中进行合作，无论代理的数量是多少，这显示了我们提出的方法的广阔前景。更多视频可访问 https://umass-embodied-agi.github.io/COMBO/。

发布时间: 4/17/2025

查看原文

人工势场和互易控制屏障函数基的安全滤波器比较研究

作者: Ming Li, Zhiyong Sun

arXiv:2403.15743v2 宣告类型: replace-cross 摘要: 在本文中，我们证明了由人工势场(APFs)设计的控制器可以基于互惠控制障碍函数二次规划(RCBF-QP)安全过滤器从其中导出。通过在RCBF-QP框架中整合APFs，我们明确地建立了这两种方法之间的关系。具体来说，我们首先引入了紧化控制李亚普诺夫函数(T-CLFs)和紧化互惠控制障碍函数(T-RCBFs)的概念，两者都包含了一个灵活的辅助函数。然后，我们使用吸引势场作为T-CLF来指导名义控制器的设计，并使用排斥势场作为T-RCBF来制定RCBF-QP安全过滤器。通过合适选择的辅助函数，我们证明了由APFs设计的控制器与由RCBF-QP安全过滤器导出的控制器是等价的。基于这一洞察，我们进一步将基于APFs的控制器(等效地，基于RCBF-QP安全过滤器的控制器)推广到更一般的情景，而不限制辅助函数的选择。最后，我们提供了一个避碰示例，以清楚地说明这两种方法之间的联系和等价性。

发布时间: 4/17/2025

查看原文

从文本生成长视频的StreamingT2V：一致、动态且可扩展的方法

作者: Roberto Henschel, Levon Khachatryan, Hayk Poghosyan, Daniil Hayrapetyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi

arXiv:2403.14773v2 宣告类型: replace-cross 摘要: 文本到视频扩散模型能够根据文本指令生成高质量的视频，使得创建多样且个性化的内容变得容易。然而，现有的方法主要集中在高质量短视频（通常是16或24帧）的生成上，当简单地扩展到长视频合成时，往往会导致生硬的剪辑。为了克服这些限制，我们引入了StreamingT2V，这是一种用于生成80、240、600、1200帧或更多帧的平滑过渡长视频的自回归方法。关键组件包括：(i) 一个称为条件注意模块(CAM)的短期记忆块，该模块通过注意机制根据上一小段提取的特征来条件当前生成，从而导致一致的小段过渡；(ii) 一个称为外观保护模块的长期记忆块，该模块从第一段视频提取高层次的场景和物体特征以防止模型忘记初始场景；(iii) 一种随机混合方法，使视频增强器能够在无矛盾的小段情况下自回归地应用于无限长的视频。实验显示，StreamingT2V 生成了大量运动。相比之下，所有竞争的图像到视频方法在自回归应用时都容易导致视频停滞。因此，我们利用 StreamingT2V 提出了一种高质量无缝文本到长视频生成器，该生成器在一致性与运动方面优于竞争对手。我们的代码将在以下地址提供：https://github.com/Picsart-AI-Research/StreamingT2V

发布时间: 4/17/2025

查看原文

医学AI中的泛化能力：关于开发可扩展模型的视角

作者: Eran Zvuloni, Leo Anthony Celi, Joachim A. Behar

arXiv:2311.05418v2 宣布类型: replace-cross 摘要：科学界越来越认识到医学AI领域泛化的重要性，以便将研究转化为实际临床应用。本文引入了一个三层尺度来表征医学AI模型的分布外泛化性能。该尺度涵盖了现实世界医学场景的多样性，以及目标领域数据和标签是否可用于模型重新校准。它作为工具，帮助研究人员描述其开发环境，并确定应对分布外泛化挑战的最佳方法。

发布时间: 4/17/2025

查看原文