arXiv 论文列表

作者: Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran

arXiv:2406.12257v3 宣布类型: 替换摘要: 大型语言模型（LLMs）在生成任务中的出色表现使从业者能够利用公开可用的模型来支持自定义应用，例如聊天机器人和虚拟助手。然而，用于训练或微调这些LLMs的数据通常未被披露，这使得攻击者能够获取这些数据并在模型中植入后门。在本文中，我们开发了一种新颖的推理时防御方法，称为CLEANGEN，以减轻LLMs生成任务中的后门攻击。CLEANGEN是一种轻量级且有效的解码策略，与最先进的（SOTA）LLMs兼容。CLEANGEN背后的洞察是，与其他LLMs相比，被植入后门的LLMs会显著提高表示攻击者所期望内容的标记的概率。这些标记概率之间的差异使CLEANGEN能够识别出受攻击者青睐的可疑标记，并用另一个未被同一攻击者操控的LLM生成的标记替换它们，从而避免生成攻击者所期望的内容。我们将CLEANGEN与五个SOTA后门攻击进行了评估。我们的结果显示，在所有五个后门攻击中，CLEANGEN相比于五个SOTA基线防御方法，其攻击成功率（ASR）较低。此外，当使用CLEANGEN的LLMs以最小的附加计算开销服务于良性用户查询时，仍然保持了其响应的可用性。

发布时间: 3/28/2025

查看原文

关于聚合-组合图神经网络的逻辑推理语言

作者: Pierre Nunn, Marco S\"alzer, Fran\c{c}ois Schwarzentruber, Nicolas Troquard

arXiv:2405.00205v2 宣告类型: 替换摘要: 我们提出了一种模态逻辑，在这种逻辑中，计数模态出现在线性不等式中。我们展示了一个公式可以被转换成等价的图形神经网络（GNN）。我们还展示了可以高效地将广泛的GNN类转换为公式，从而显著改善了关于GNN逻辑表达能力的文献。此外，我们展示了可满足性问题是PSPACE完全的。这些结果将利用标准逻辑方法来推理GNN及其属性的前景汇聚在一起，特别是在GNN查询、等价性检查等应用方面。我们证明了这类自然问题可以在多项式空间中解决。

发布时间: 3/28/2025

查看原文

马尔可夫决策过程中的反事实影响

作者: Milad Kazemi, Jessica Lally, Ekaterina Tishchenko, Hana Chockler, Nicola Paoletti

arXiv:2402.08514v2 声明类型: 替换摘要：我们的工作针对马尔可夫决策过程（MDPs）背景下反事实推理的基本问题。给定一条MDP路径$\tau$，这种推理允许我们推导出反事实路径$\tau'$，描述在不同于$\tau$中观察到的动作序列的情况下$\tau$的如果-否则版本。然而，随着反事实状态和动作逐渐偏离观察到的那些状态，观察$\tau$可能不再影响反事实世界，这意味着分析不再针对个体观察进行定制，而是产生了干预性结果而非反事实结果。尽管这个问题特指用于MDPs反事实推理的流行Gumbel-max结构因果模型，但直到现在它一直被忽视。在本文中，我们基于比较反事实分布和干预分布引入了影响的正式定义。我们设计了一种算法，以自动满足影响约束条件构建反事实模型。利用这些模型，我们推导出了不仅对给定的奖励结构最优，还能针对观察到的路径进行定制的反事实策略。尽管策略最优性和影响约束强度之间不可避免地存在权衡，但我们的实验表明，在观察的影响下仍有可能推导出（接近）最优策略。

发布时间: 3/28/2025

查看原文

在线POMDP规划，附有随时可用的确定性保证

作者: Moran Barenboim, Vadim Indelman

arXiv:2310.01791v3 宣告类型: 替换摘要: 在信息不完全的情况下，不确定性下的决策是许多实际自主系统的关键方面。部分可观测马尔可夫决策过程（POMDPs）提供了一种数学原理框架，用于在这些条件下制定决策问题。然而，找到POMDP的最优解一般是不可实现的。近年来，使用在线树搜索求解器从小型到中型问题放大了近似求解器。通常，这样的近似求解器只能对最优解提供概率性的或渐近性的保证。在本文中，我们推导出了离散POMDP中近似解和最优解之间的确定性关系。我们展示了在任何时间点，都可以推导出联系当前解和最优解的边界。我们展示了我们的推导为新的算法提供了一条途径，并可以附加到具有特定结构的现有算法上，从而在几乎没有计算开销的情况下提供确定性的保证。不仅我们可以验证解的质量，而且我们证明了基于确定性保证进行决策可能比没有确定性认证的原始算法展现出更优的性能。

发布时间: 3/28/2025

查看原文

StyleMotif：多模态运动风格化使用风格-内容交叉融合

作者: Ziyu Guo, Young Yoon Lee, Joseph Liu, Yizhak Ben-Shabat, Victor Zordan, Mubbasir Kapadia

arXiv:2503.21775v1 Announce Type: cross 摘要：我们提出了一种新颖的Stylized Motion Latent Diffusion模型——StyleMotif，该模型能够同时基于内容和多种模态下的样式生成运动。与现有的生成多样化运动内容或从序列中转移样式的做法不同，StyleMotif能够无缝地综合多种内容下的广泛运动范围，并从多模态输入（包括运动、文本、图像、视频和音频）中融入风格提示。为了实现这一点，我们引入了一种风格-内容交叉融合机制，并将一个风格编码器与预训练的多模态模型对齐，以确保生成的运动准确捕捉参考样式同时保持真实感。广泛的眼下实验表明，我们的框架在风格化运动生成方面超越了现有方法，并展示了跨模态运动风格化的 emergent 能力，从而实现更精细的运动合成。源代码和预训练模型将在接受后发布。项目页面：https://stylemotif.github.io

发布时间: 3/28/2025

查看原文

Stable-SCore：一种基于配准的稳定形状对应框架

作者: Haolin Liu, Xiaohang Zhan, Zizheng Yan, Zhongjin Luo, Yuxin Wen, Xiaoguang Han

arXiv:2503.21766v1 Announce Type: cross 摘要：在计算机视觉和图形学中，建立字符形状对应是一项关键且基础的任务，其应用包括重新拓扑、属性转移和形状插值。当前占主导地位的功能映射方法在受控场景中表现有效，但在面对更复杂挑战（如非等参形状差异）的现实环境中遇到困难。为应对这些挑战，我们重新审视了注册对应方法，并发掘其在形状对应估计中的潜在稳定性。为克服它们常见的问题，如不稳定形变和需要仔细的预对齐或高质量的初始3D对应点，我们引入了Stable-SCore：一种基于注册的3D形状对应稳定框架。我们首先重新利用一个基础模型来进行2D字符对应，以确保可靠的和稳定的2D映射。 crucial的是，我们提出了一种新的Semantic Flow Guided Registration方法，利用2D对应来指导网格变形。我们的框架在挑战场景中显著超越了现有方法，并为广泛的真实应用带来了可能性，如我们在结果中所展示的。

发布时间: 3/28/2025

查看原文

Uni4D: 统一单视频驱动的4D建模视觉基础模型

作者: David Yifan Yao, Albert J. Zhai, Shenlong Wang

arXiv:2503.21761v1 Announce Type: cross 摘要：本文提出了一种统一的方法，用于从休闲视频中理解动态场景。大型预训练视觉基础模型，如视觉-语言、视频深度预测、运动跟踪和分割模型，提供了有前景的能力。然而，训练一个单一模型来实现全面的4D理解仍然是具有挑战性的。我们引入了Uni4D，这是一种多阶段优化框架，利用多个预训练模型来推动动态3D建模，包括静态/动态重建、相机姿态估计和密集3D运动跟踪。我们的结果显示，Uni4D在动态4D建模方面具有卓越的视觉质量，达到了最先进的性能。值得注意的是，Uni4D无需重新训练或微调，突显了重新利用视觉基础模型进行4D理解的有效性。

发布时间: 3/28/2025

查看原文

Fwd2Bot: 基于双前向瓶颈的LVLM视觉 token 压缩

作者: Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos

arXiv:2503.21757v1 交叉公告类型: 摘要：在本文中，我们旨在压缩大型视觉语言模型（LVLM）的视觉 token，使其同时适用于（a）生成性任务和（b）判别性任务，（c）几乎是无损的，以及（d）存储效率高的要求。我们提出了一种新型压缩方法，称为 Fwd2Bot，该方法利用 LVLM 本身以任务无关的方式压缩视觉信息。Fwd2bot 的核心是一种“双前向传递”训练策略，在第一个前向传递中，LLM（LVLM 中的 LLM）通过将视觉信息凝练为少量摘要 token 来形成瓶颈。然后，使用相同的 LLM，第二个前向传递会处理语言指令（和摘要 token），并将摘要 token 作为图像 token 的直接替换。两个损失函数提供了训练信号：在第二个传递后应用的自回归损失，为压缩提供了直接的优化目标，以及在第一个传递后应用的对比损失，进一步提升了表示能力，特别是在判别性任务方面。通过特定阶段的适配器，训练进一步增强。我们随提出的方法提供了一个详细的消融研究。总体而言，Fwd2Bot 结果产生了高度信息量的压缩表示，适用于生成性和判别性任务。对于生成性任务，我们实现了 2 倍更高的压缩率，而不牺牲生成能力，从而设立了新的 state-of-the-art 结果。对于判别性任务，我们设立了新的 state-of-the-art 在图像检索和组合性方面。

发布时间: 3/28/2025

查看原文

语言可控的以对象为中心的视觉表示学习

作者: Aniket Didolkar, Andrii Zadaianchuk, Rabiul Awal, Maximilian Seitzer, Efstratios Gavves, Aishwarya Agrawal

arXiv:2503.21747v1 Announce Type: cross 摘要：物体中心的表示学习旨在将视觉场景分解为固定大小的向量，称为“槽”或“对象文件”，其中每个槽捕捉到一个不同的对象。当前的物体中心模型在物体发现方面已经在多个领域，包括复杂的现实世界场景中取得了显著的成功。然而，这些模型面临一个关键的限制：缺乏可控性。具体来说，当前的物体中心模型基于它们对物体的预先理解来学习表示，而不允许用户输入来指导哪些对象被表示。在物体中心模型中引入可控性可以解锁一系列有用的功能，例如从场景中提取实例特定的表示能力。在本文中，我们提出了一种新颖的方法，通过将槽条件化于语言描述以实现用户导向的槽表示控制。我们提出的可控物体中心表示学习方法，称为CTRL-O，能够在不需要遮罩监督的情况下在复杂的现实世界场景中实现目标对象-语言绑定。接下来，我们在两个下游视觉语言任务上应用了这些可控的槽表示：文本生成图像和视觉问答。所提出的方法能够实现实例特定的文本生成图像，并且在视觉问答方面也取得了较强的效果。

发布时间: 3/28/2025

查看原文

GateLens：一种增强推理的汽车软件发布分析LLM代理

作者: Arsham Gholamzadeh Khoee, Shuai Wang, Yinan Yu, Robert Feldt, Dhasarathy Parthasarathy

arXiv:2503.21735v1 宣布类型: cross 摘要：确保软件发布的可靠性和有效性至关重要，特别是在汽车系统等安全关键领域。精确分析发布的验证数据，这些数据通常以表格形式呈现，对这一过程至关重要。然而，依赖于手动分析大量测试数据集和验证指标的传统方法容易导致延迟和高成本。大语言模型（LLMs）提供了一种有希望的替代方案，但在分析推理、上下文理解、处理超出范围的查询以及一致处理结构化测试数据方面面临挑战；这些限制阻碍了它们在安全关键场景中的直接应用。本文介绍了GateLens，这是一种基于LLM的工具，用于分析汽车领域的表格数据。GateLens将自然语言查询转换为关系代数（RA）表达式，然后生成优化的Python代码。在基准数据集上，GateLens的性能优于基线系统，F1分数更高，并且在处理复杂和模糊查询时更加稳健。消融研究证实了RA模块的关键作用，如果没有这个模块，性能会急剧下降。工业评估表明，GateLens将分析时间缩短了80%以上，同时保持了高准确性和可靠性。正如所展示的结果所示，GateLens在不依赖少样本示例的情况下实现了高性能，并展示了其在各种查询类型中的强大泛化能力，这些查询类型来自不同公司的角色。在与一家汽车公司合作伙伴部署GateLens后的洞察提供了实用指导，以整合AI到关键工作流中，例如发布验证。结果表明，通过自动化测试结果分析，GateLens能够提供更快、更明智和更可靠的发布决策，从而促进汽车系统中的软件可扩展性和可靠性。

发布时间: 3/28/2025

查看原文