arXiv 论文列表

作者: Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones

arXiv:2505.05522v2 通知类型: 替换-交叉摘要：生物大脑展示了复杂的神经活动，其中神经元之间的时间关系和相互作用对大脑处理信息至关重要。大多数深度学习架构通过抽象掉时间动态来简化神经活动。在本文中，我们挑战了这种范式。通过整合神经元级别的处理和同步，我们可以有效地重新引入神经时间作为基础元素。我们提出了连续思维机器（CTM），一种设计用于利用神经动力学作为其核心表示的模型。CTM的核心创新有两项：（1）神经元级别的时间处理，其中每个神经元使用独特的权重参数处理传入信号的历史；（2）作为一种潜在表示的神经元同步。CTM旨在在简化神经元抽象以提高计算效率和生物现实之间取得平衡。它在有效的捕捉关键时间动态的同时，保持计算上可行以适应深度学习。我们展示了CTM在一系列具有挑战性的任务中表现出强劲的性能和 versatility，包括ImageNet-1K分类、解决2D迷宫、排序、奇偶性计算、问答和强化学习任务。除了展示丰富的内部表示并因其内部过程提供自然的可解释性途径外，CTM还能够执行需要复杂顺序推理的任务。CTM还可以利用自适应计算，在简单任务中可以提前停止，而在面对更具有挑战性的实例时继续计算。本工作的目标是分享CTM及其相关创新，而不是推动新的最先进成果。为了这一目标，我们认为CTM代表了一步向开发更生物合现实且强大的人工智能系统的显著进展。

发布时间: 5/13/2025

查看原文

Flow-GRPO：通过在线RL训练流匹配模型

作者: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

arXiv:2505.05470v2 宣告类型：replace-cross 摘要：我们提出了Flow-GRPO，这是第一个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法使用了两种关键策略：(1) ODE-to-SDE 转换，即将确定性的常微分方程(ODE)转换为等价的随机微分方程(SDE)，这种SDE在所有时间步上与原始模型的边际分布匹配，从而实现用于RL探索的统计采样；以及(2) 去噪缩减策略，在保留原始推理时间步骤数量的同时减少训练中的去噪步骤，显著提高了采样效率，而不降低性能。实验证明，Flow-GRPO 在多种文本到图像任务中都有效。对于复杂的组合，RL调整的SD3.5 生成了几乎完美的对象数量、空间关系和细粒度属性，将GenEval精度从63%提升到95%。在视觉文本渲染中，其精度从59%提升到92%，显著增强了文本生成。Flow-GRPO 还实现了显著的人类偏好对齐增益。值得注意的是，几乎没有任何奖励欺骗发生，这意味着奖励的增加并没有以显著降低图像质量和多样性为代价。

发布时间: 5/13/2025

查看原文

通过自信息重写攻击揭示文本水印的弱点

作者: Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal

arXiv:2505.05190v2 通知类型: 替换-交叉摘要: 文本水印旨在通过控制大型语言模型 (LLM) 的采样过程，微妙地将统计信号嵌入到文本中，从而使水印检测器能够验证输出是否由指定的模型生成。这些水印算法的鲁棒性已成为评估其有效性的一个关键因素。当前的文本水印算法通过将水印嵌入高熵词汇来确保文本质量。在本文中，我们揭示了一个看似无害的设计可以被攻击者利用，对水印的鲁棒性构成了重大风险。我们提出了一种通用高效的改写攻击——自我信息改写攻击 (SIRA)，这种攻击利用了这一漏洞，通过计算每个词汇的自我信息来识别潜在的模式词汇并执行有针对性的攻击。我们的工作揭示了当前水印算法中普遍存在的一种漏洞。实验结果表明，SIRA 在仅需每百万个词汇成本 0.88 美元的情况下，成功率达到接近 100% 的攻击成功率，这一方法不需要访问水印算法或带有水印的 LLM，并且可以无缝转移到任何 LLM 作为攻击模型，甚至可以应用于移动级别模型。我们的发现强调了对更鲁棒的水印方法的迫切需求。

发布时间: 5/13/2025

查看原文

随机变分传播：回传传播的局部、可扩展且高效的替代方法

作者: Bojian Yin, Federico Corradi

arXiv:2505.05181v2 宣告类型: replace-cross 摘要: 反向传播（BP）是深度学习的基石，但其对全局梯度同步的依赖限制了其可扩展性并产生了重大的内存开销。我们提出了随机变分传播（SVP），这是一种可扩展的替代方法，将训练重新构想为分层变分推断。SVP 将层激活视为潜在变量，并优化局部证据下界（ELBO），从而实现独立、局部更新，同时保持全局一致性。然而，直接在分层ELBO中应用Kullback-Leibler（KL）散度可能会由于过度压缩而导致层之间的表示崩溃。为了防止这种情况，SVP 通过固定随机矩阵将激活投影到低维空间，确保信息的保留和表示的多样性。结合跨层一致性的特征对齐损失，SVP 在多种架构（MLPs、CNNs、Transformers）和数据集（MNIST 到 ImageNet）上实现了与BP竞争的准确性，将内存使用量最多减少了4倍，并显著提高了可扩展性。更广泛地说，SVP 引入了对深层表示学习的概率观点，为更模块化和可解释的神经网络设计开辟了途径。

发布时间: 5/13/2025

查看原文

量子启发式优化过程用于数据插补

作者: Nishikanta Mohanty, Bikash K. Behera, Badshah Mukherjee, Christopher Ferrie

arXiv:2505.04841v2 通知类型: 替换-交叉摘要：数据插补是数据预处理中的关键步骤，特别是在处理具有缺失或不可靠值的数据集时。本研究介绍了一种新型的基于量子启发的插补框架，该框架在包含多个临床特征中生物学上不合理的缺失值的UCI糖尿病数据集上进行了评估。该方法将主成分分析（PCA）与量子辅助旋转相结合，并通过无导数梯度优化器- COBYLA、模拟退火和差分进化进行优化，以重建缺失值同时保留统计保真度。重建的值被限制在原始特征分布的标准差正负2倍范围之内，避免了围绕中心趋势的不现实的聚类。这种方法在Wasserstein距离以及Kolmogorov-Smirnov检验p值方面取得了显著的改进，平均减少了超过85%的Wasserstein距离，并且Kolmogorov-Smirnov检验p值在0.18到0.22之间，相比之下，传统的插补方法如均值、KNN和MICE方法的p值大于0.99。此外，该方法还消除了零值的异常，并增强插值数据的现实性和变异性。通过将量子启发的变换与可扩展的经典框架相结合，这种方法为医疗保健和AI流水线等领域中的插补任务提供了稳健的解决方案，数据质量和完整性至关重要。

发布时间: 5/13/2025

查看原文

WATCH: 通过加权符合鞅进行的自适应AI部署监控

作者: Drew Prinster, Xing Han, Anqi Liu, Suchi Saria

arXiv:2505.04608v2 宣布类型: replace-cross 摘要: 在高风险环境中负责任地部署人工智能（AI）/机器学习（ML）系统不仅需要证明系统的可靠性，还需要在部署后进行持续监测，以快速检测和解决任何不安全的行为。非参数变化点检测的统计方法——尤其是遵从测试鞅（CTMs）和随时有效的推论工具——提供了这种监测任务的有前景的方法。然而，现有方法仅限于监控有限的假设类别或“警报标准”（如违反某些可交换性假设的数据转移），无法在响应转移时进行在线适应，或者无法进行任何性能下降的根本原因分析。在本文中，我们通过提出加权的遵从测试鞅的一般化（WCTMs）来扩展这些监控方法的应用范围，为数据分布中的任何意外变化点进行在线监测，同时控制错误警报。在实际应用中，我们提出了特定的WCTM算法，这些算法可以在轻微协变量转移（边缘输入分布）的情况下进行在线适应，同时快速检测和诊断更严重的转移，如概念转移（条件标签分布）或无法轻易适应的极端（超出支持范围）协变量转移。在实际数据集上，我们展示了相对于现有最佳基准的性能改进。

发布时间: 5/13/2025

查看原文

通用神经 traveling salesman 问题求解器的纯净性定律

作者: Wenzhao Liu, Haoran Li, Congying Han, Zicheng Zhang, Anqi Li, Tiande Guo

arXiv:2505.04558v2 宣告类型: 替换-交叉摘要：在不同的规模和分布下实现神经方法在旅行商问题（TSP）上的泛化仍然是一个重大挑战。关键障碍在于神经网络往往无法学习到识别普遍模式并从多样性的实例中推导出最优解的稳健原则。在这篇论文中，我们首先发现了纯度定律（PuLa），这是一种关于最优TSP解的基本结构原则，定义为边的出现频率随着周围顶点稀疏性的增加而指数增长。PuLa在多样性的实例中得到了统计验证，揭示了全局最优解中对局部稀疏性的持续偏向。基于这一见解，我们提出了纯度策略优化（PUPO），这是一种新的训练范式，在解构建过程中明确地将神经解决方案的特点与PuLa对齐，以增强泛化能力。广泛的经验表明，PUPO可以无缝地与流行的神经求解器集成，显著提高它们的泛化性能，而不会在推断过程中增加额外的计算开销。

发布时间: 5/13/2025

查看原文

从卫星borne到机载：使用基础模型进行多尺度适应的SAR图像合成

作者: Solene Debuysere, Nicolas Trouve, Nathan Letheule, Olivier Leveque, Elise Colin

arXiv:2505.03844v2 宣告类型: replace-cross 摘要：近年来，合成孔径雷达（SAR）卫星成像数据的可用性显著增加，商业数据集数量庞大。然而，在航空配置中获取高分辨率SAR图像仍然成本高昂且受到限制。因此，缺乏开源、高质量标注或易于利用的SAR图文数据集是限制现有基础模型在遥感应用中使用的一个障碍。在这个背景下，合成图像生成是一种有望增加稀缺数据的方法，从而扩大应用范围。利用ONERA超过15年丰富的存档航空数据，我们创建了由11万个SAR图像组成的全面训练数据集，以利用预训练的35亿参数潜扩散模型\cite{Baqu2019SethiR}。在这项工作中，我们提出了一种新颖的方法，利用基础模型内的空间条件技术，将卫星SAR图像转换为空中SAR表示。此外，我们证明，我们的管道对于连接ONERA物理模拟器Emprise \cite{empriseem_ai_images}生成的模拟图像的真实感是有效的。我们的方法探索了AI在SAR成像技术进步中的关键应用。据我们所知，这是我们首次在文献中引入这种方法。

发布时间: 5/13/2025

查看原文

彩虹延迟补偿：一个减轻延迟观测的多智能体强化学习框架

作者: Songchen Fu, Siang Chen, Shaojing Zhao, Letian Bai, Ta Li, Yonghong Yan

arXiv:2505.03586v3 公告类型: 交叉替换摘要：在实际世界中的多智能体系统（MASs）中，观察延迟无处不在，阻止智能体基于环境的真实状态做出决策。单个智能体的局部观察往往包括环境中的其他智能体或动态实体的多个组成部分。这些具有不同延迟特性的离散观察组成部分给多智能体强化学习（MARL）带来了重大挑战。在本文中，我们首先通过扩展标准Dec-POMDP来形式化分布式随机离散个体延迟部分可观测马尔可夫决策过程（DSID-POMDP）。接着，我们提出了彩虹延迟补偿（RDC），一个用于解决随机个体延迟的MARL训练框架，并推荐了其组成部分模块的具体实现方法。我们使用标准的MARL基准测试（包括MPE和SMAC）实现DSID-POMDP的观察生成模式。实验表明，在固定延迟和非固定延迟的情况下，基础MARL方法遭受严重的性能下降。RDC增强的方法缓解了这一问题，在某些延迟场景中实现了理想的无延迟性能，同时保持了一般性。我们的工作为多智能体延迟观察问题提供了新的视角，并提供了一个有效的解决方案框架。代码详见 https://anonymous.4open.science/r/RDC-pymarl-4512/。

发布时间: 5/13/2025

查看原文

预先训练数据的重写提高了数学和代码生成的LLM性能

作者: Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki

arXiv:2505.02881v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在程序合成和数学推理方面的性能从根本上受限于它们的预训练语料库质量。我们引入了两个开放许可的数据集，发布在Llama 3.3社区许可之下，通过系统地重写公共数据显著增强了LLM的性能。SwallowCode（大约161亿个令牌）通过一项新颖的四阶段流水线对The-Stack-v2的Python片段进行精细调整：语法验证、基于pylint的样式筛选，以及一个两阶段的LLM重写过程，该过程确保样式一致性并把片段转换为自包含且算法高效的示例。与依赖排除性筛选或有限转换的先前方法不同，我们的转换并保留方法升级了低质量代码，最大化了数据的可用性。SwallowMath（大约23亿个令牌）通过去除样板代码、恢复上下文并将解决方案格式化为简洁的按步骤解释来增强Finemath-4+。在固定500亿令牌的预训练预算内，持续对Llama-3.1-8B进行SwallowCode的预训练，使得HumanEval上的pass@1提高了+17.0，HumanEval+提高了+17.7，相比Stack-Edu，超过了基线模型的代码生成能力。同样，替换SwallowMath在GSM8K上提高了+12.4的准确率，在MATH上提高了+7.6。消融研究表明，每个流水线阶段的贡献是逐步增加的，重写带来了最大的收益。所有数据集、提示和检查点都是公开可用的，这使得可重现的研究成为可能，并推动了专门领域的LLM预训练。

发布时间: 5/13/2025

查看原文