arXiv 论文列表

作者: Brian Choi, Shu Wang, Isabelle Choi, Kun Sun

arXiv:2505.04977v1 宣告类型: cross 摘要: 随着深度神经网络(DNN)模型的广泛部署，动态水印技术被用来保护模型所有者的知识产权。然而，最近的研究表明，现有的水印方案容易受到水印去除和含糊性攻击。此外，判断水印存在的模糊标准进一步增加了此类攻击的可能性。在本文中，我们提出了一种名为ChainMarks的安全DNN水印方案，通过引入加密链到触发输入中生成安全且稳健的水印，并利用两阶段蒙特卡洛方法来确定水印的存在。首先，ChainMarks通过反复应用哈希函数生成秘密密钥作为水印数据集，目标标签则来自于模型所有者的数字签名。然后，通过在原始数据集和水印数据集上训练DNN来生成带有水印的模型。为了验证水印，我们通过比较触发输入的预测标签与目标标签，并利用更精确的决策阈值来考虑特定模型的分类概率来确定所有权。实验结果表明，ChainMarks相较于现有的水印方案在稳健性和安全性方面表现得更好。通过提供更好的边际效用，ChainMarks在相同水印准确度的条件下为DNN模型提供了更高的水印存在概率的保证。

发布时间: 5/9/2025

查看原文

基于AI和视觉的纳米无人机在部分未知环境中的自主导航

作者: Mattia Sartori, Chetna Singhal, Neelabhro Roy, Davide Brunelli, James Gross

arXiv:2505.04972v1 类型: cross 摘要：传感器和处理器的小型化、边缘智能的进展以及人工智能的兴趣呈指数增长，正在推动自主纳米级无人机在物联网机器人生态系统中的认可。然而，这些小型平台由于资源有限，要在不完全已知的环境中实现安全自主导航和探索、监视等高级任务极其具有挑战性。本文旨在使名为Crazyflie 2.1的30克级袖珍平台在部分已知环境中实现安全自主飞行。我们提出了一种基于集成感知、计算和通信理念的新颖的人工智能辅助、基于视觉的反应性规划方法，用于避障。我们通过将导航任务分为两个部分来应对纳米无人机的约束：深度学习基于的物体检测器在边缘（外部硬件）运行，而规划算法在设备上运行。结果表明，可以使用约每秒8帧的速度指令无人机，并且模型性能达到了COCO的平均精度60.8。实地实验展示了该解决方案的可行性，无人机以1米/秒的速度飞行，并且在未知位置避开了障碍物，成功到达目标位置。结果突出了通信延迟和模型性能与实时导航任务需求的兼容性。我们提供了一种可行的全设备内部实现的替代方案，该方案可以扩展到纳米无人机的自主探索任务中。

发布时间: 5/9/2025

查看原文

因果效应的矩込めしゃい

作者: Yuta Kawakami, Jin Tian

arXiv:2505.04971v1 声明类型: cross 摘要: 随机变量的矩是描述概率分布形状的基本统计度量，包含了均值、方差、偏态和峰度等指标。此外，包括协方差和相关系数在内的乘积矩揭示了多个随机变量之间的关系。另一方面，因果推理的主要关注点是评估因果效应，这些效应定义为两个潜在结果之差。尽管传统的因果效应评估主要关注平均因果效应，但本文提供了因果效应的矩和乘积矩的定义、识别定理和边界，以分析它们的分布和关系。我们进行了实验，以说明从有限样本估计因果效应的矩，并通过一个实际的医疗数据集演示它们的实际应用。

发布时间: 5/9/2025

查看原文

基于物理的运动模仿与对抗性微分鉴别器

作者: Ziyu Zhang, Sergey Bashkirov, Dun Yang, Michael Taylor, Xue Bin Peng

arXiv:2505.04961v1 类别: cross 摘要: 多目标优化问题需要同时优化多个目标，在众多应用中普遍存在。现有的多目标优化方法通常依赖于手动调整的聚合函数来形成联合优化目标。这类手动调整的方法的性能很大程度上依赖于仔细选择权重，这是一个耗时且繁琐的过程。这些限制在基于强化学习的运动跟踪中也是如此，在物理模拟的字符运动跟踪中，通常会使用复杂设计的奖励函数来达到高保真度的结果。这种解决方案不仅需要领域专业知识和大量的手动调整，还限制了所得到的奖励函数在不同技能间的适用性。为了解决这个问题，我们提出了一种新的对抗性多目标优化技术，该技术广泛适用于多种多目标优化问题，包括运动跟踪。提出的对抗性微分判别器仅接收一个正样本，但仍有效指导优化过程。我们展示了该技术可以使角色准确复制各种杂技和敏捷行为，无需依赖手动调整的奖励函数，其质量可与当前最先进的运动跟踪方法相媲美。结果可通过https://youtu.be/rz8BYCE9E2w最佳可视化。

发布时间: 5/9/2025

查看原文

Graffe：通过扩散概率模型的图表示学习

作者: Dingshuo Chen, Shuchen Xue, Liuji Chen, Yingheng Wang, Qiang Liu, Shu Wu, Zhi-Ming Ma, Liang Wang

arXiv:2505.04956v1 声称类型: cross 摘要: 扩散概率模型（DPMs）因其生成高质量样本的潜力而广为人知，但在表示学习中的应用却常常被忽略。尽管最近的研究突显了它们在捕捉视觉语义方面的潜力，但将DPMs应用于图表示学习仍处于起步阶段。在本文中，我们介绍了Graffe，这是一种为图表示学习设计的自监督扩散模型。它包含一个图编码器，该编码器将源图压缩成一个紧凑表示，该表示随后作为条件以指导去噪解码器的去噪过程。为了评估我们模型的有效性，我们首先探讨了将扩散模型应用于表示学习的理论基础，证明了去噪目标隐含地最大化了数据与其表示之间的条件互信息。具体而言，我们证明了去噪分数匹配损失的负对数是一个可行的下界，用于条件互信息。实验上，我们进行了一系列案例研究以验证我们的理论洞察。此外，在结点分类和图分类任务的线性探针设置下，Graffe 展示了竞争力的结果，并在11个真实数据集中有9个实现了领先性能。这些发现表明，强大的生成模型，尤其是扩散模型，是图表示学习的有效工具。

发布时间: 5/9/2025

查看原文

链思考标记是计算机程序变量

作者: Fangwei Zhu, Peiyi Wang, Zhifang Sui

arXiv:2505.04955v1 Announce Type: cross 摘要：链式思维（CoT）要求大型语言模型（LLMs）在得出最终答案之前生成中间步骤，已被证明有助于解决复杂的推理任务。然而，CoT 的内在机制仍不清楚。在本文中，我们实证研究了CoT标记在两个组合任务（多位数乘法和动态规划）中的作用。尽管CoT对于解决这些问题至关重要，但我们发现，仅保留存储中间结果的标记即可实现相似的性能。此外，我们观察到以另一种潜在形式存储中间结果不会影响模型性能。我们还随机干预了一些CoT标记的值，并注意到后续的CoT标记和最终答案会相应地发生变化。这些发现表明，CoT标记可能类似于计算机程序中的变量，但也可能存在未预见的捷径和标记之间的计算复杂性限制等潜在问题。完整代码和数据可在 https://github.com/solitaryzero/CoTs_are_Variables 获取。

发布时间: 5/9/2025

查看原文

T2VTextBench：视频生成模型中文本控制的人类评估基准

作者: Xuyang Guo, Jiayan Huo, Zhenmei Shi, Zhao Song, Jiahao Zhang, Jiale Zhao

arXiv:2505.04946v1 Announce Type: cross 摘要：多亏了近期在可扩展深度架构和大规模预训练方面取得的进展，文本到视频生成已经在广泛风格下实现了前所未有的能力，生产出高质量、遵循指令的内容，从而在广告、娱乐和教育等领域得到了应用。然而，这些模型在渲染精确的屏幕文本，如字幕或数学公式方面的能力尚未得到充分测试，给需要精确文本准确性的应用程序带来了重大挑战。在本文中，我们引入了T2VTextBench，这是首个专门用于评估文本到视频模型中屏幕文本保真度和时间一致性的手工评估基准。我们的提示套件将复杂的文本字符串与动态场景变化结合起来，测试每个模型在帧间保持详细指令的能力。我们评估了十个最先进的系统，从开源解决方案到商业产品一应俱全，并发现大多数系统在生成可读性和一致性文本方面存在困难。这些结果突显了当前视频生成器中的关键差距，并为未来旨在改进视频合成中文本操控的研究指明了方向。

发布时间: 5/9/2025

查看原文

链接预测中的结构对齐

作者: Jeffrey Seathr\'un Sardina

arXiv:2505.04939v1 论文类型: cross 摘要：尽管知识图谱（KGs）在各个科学学科中因其建模和链接大量数据的能力而越来越受欢迎，但基本上所有现实世界的 KG 都被证实是不完整的。因此，随着 KG 使用的增长，开发出一批用于预测 KG 中缺失信息的机器学习工具，并将其称为链接预测任务的并发发展也得到了发展。迄今为止，大多数最先进的链接预测器都遵循嵌入为基础的范式。在这个范式中，假设 KG 的信息内容最好由其节点和边的向量表示来体现，因此节点和边嵌入特别适合执行链接预测。本论文提出了对链接预测和 KG 数据建模方法的传统观点的另一种看法。具体来说，这项工作从一种以图结构为先的视角重新分析了 KG 和最先进的链接预测器，将 KG 的信息内容建模为整个三元组，而不是单独的节点和边。在文献综述和两组核心实验之后，本论文得出结论，以结构为先的方法来理解和建模 KG 和链接预测是可行且有用的，对于 KG 学习的理解和链接预测任务的跨图转移学习具有重要作用。这一观察结果用于创建并提出了结构对齐假设，该假设提出可以将链接预测理解为一个结构性任务。本论文中使用的所有代码和数据均已开源。本论文采用双语编写，主文档用英语撰写，非正式扩展摘要用爱尔兰语撰写。为了这项工作的目的而创建的机器学习术语爱尔兰语翻译词典（Foclóir Tráchtas）也已开源。

发布时间: 5/9/2025

查看原文

抑郁预测的公平不确定性量化

作者: Yonghong Li, Xiuzhuang Zhou

arXiv:2505.04931v1 宣布类型: 交叉摘要: 基于深度学习的可信抑郁预测对于临床应用至关重要，它不仅需要预测的可靠性，还需要在多样化的 demographic 组中保持算法公平性。最近，通过不确定性量化实现可靠的抑郁预测吸引了越来越多的关注。然而，很少有研究关注抑郁预测过程中不确定性量化 (UQ) 的公平性。在本文中，我们探讨了 UQ 的算法公平性，即等效机会覆盖 (EOC) 公平性，并提出了一种用于抑郁预测的公平不确定性量化 (FUQ) 方法。FUQ 通过基于群体的分析追求可靠和公平的抑郁预测。具体而言，我们首先根据不同的敏感属性对所有参与者进行分组，并利用一致性预测来量化每个 demographic 组内的不确定性，这提供了一种理论上保证的有效方法来量化抑郁预测的不确定性，从而促进了对不同 demographic 组之间公平性的研究。此外，我们提出了一种公平性意识的优化策略，将公平性 formulations 为在 EOC 约束下的约束优化问题。这使得模型在保持预测可靠性的同时能够适应不同 demographic 组之间的异质不确定性水平，从而实现最佳公平性。通过在几个视觉和音频抑郁数据集上进行广泛的评估，我们的方法证明了其有效性。

发布时间: 5/9/2025

查看原文

物理辅助和拓扑启发的深度学习用于天气预测

作者: Jiaqi Zheng, Qing Ling, Yerong Feng

arXiv:2505.04918v1 交叉类型: cross 摘要：尽管深度学习模型在天气预测中展现出了非凡的潜力，但大多数模型要么忽略了底层天气演变的**物理**过程，要么忽略了地球表面的**拓扑**结构。鉴于这些缺点，我们开发了PASSAT，一种新型的物理辅助和拓扑信息驱动的深度学习模型，用于天气预测。PASSAT将天气演变归因于两个关键因素：(i) 可以通过对流方程和纳维-斯托克斯方程来表征的对流过程；(ii) 难以建模和计算的地球-大气相互作用。除了像平面一样处理地球表面的拓扑结构外，PASSAT还考虑了地球表面的拓扑结构。通过这些考虑，PASSAT在球体流形上数值求解对流方程和纳维-斯托克斯方程，利用球体图神经网络捕获地球-大气相互作用，并从同一个球体图神经网络生成对流方程求解至关重要的初始速度场。在分辨率5.625°的ERA5数据集中，PASSAT的性能优于最先进的基于深度学习的天气预测模型和操作性的数值天气预测模型IFS T42。代码和检查点可在 https://github.com/Yumenomae/PASSAT_5p625 获取。

发布时间: 5/9/2025

查看原文