arXiv:2504.16925v1 宣布类型:交叉
摘要:模仿学习的 recent 进展得益于能够处理复杂视觉运动任务、多模态分布和大数据集的策略架构。然而,这些方法往往依赖于从大量专家演示中学习。为了解决这些不足,我们提出了潜在扩散规划(LDP),这是一种模块化方法,其包含一个能够利用无动作演示的规划器,以及一个能够利用亚最优数据的逆动力学模型,它们都操作在一个学习到的潜在空间上。首先,通过变分自编码器学习一个紧凑的潜在空间,这使我们在基于图像的领域中能够有效地预测未来状态。然后,我们使用扩散目标训练一个规划器和一个逆动力学模型。通过将规划与动作预测分离,LDP 可以从亚最优和无动作数据的密集监督信号中受益。在模拟的视觉机器人操纵任务中,LDP 在性能上超过了最先进的模仿学习方法,因为这些方法无法利用此类额外的数据。
arXiv:2504.16922v1 Announce Type: cross
摘要:许多稀疏注意机制,如邻域注意,通常未能在自我注意基线之上提供稳定的速度提升。这主要是由于注意基础设施的复杂程度以及AI硬件架构的快速演变。与此同时,许多最先进的基础模型,尤其是计算机视觉领域中的模型,高度依赖注意力机制,并需要可靠的稀疏性来摆脱O(n^2)的复杂性。在本文中,我们研究了一类专注于局部性的有希望的稀疏注意机制,并旨在开发出对他们性能改进的更好分析模型。我们首先介绍了通用邻域注意(GNA),它可以描述滑动窗口、跳跃滑动窗口以及块状注意力。然后,我们考虑了实施这些方法时可能的设计选择,并创建了一个模拟器,可以为任何给定的设置提供更现实的速度上限。最后,我们在NVIDIA Blackwell架构中为CUTLASS设计的最先进的融合多头注意力(FMHA)内核上实现了GNA。我们的实现可以在许多完美块稀疏的情况下充分利用理论上的最大速度提升,并在FP16中实现了每秒1.3拍浮点运算。此外,我们将在现成的生成模型,如Cosmos-7B、HunyuanVideo和FLUX中插入各种GNA配置,并表明它可以在不进行微调的情况下,在B200上实现28%到46%的端到端速度提升。我们将直接通过NATTEN项目开源我们的模拟器和Blackwell内核。
arXiv:2504.16918v1 优化类型:跨领域
摘要:优化在科学研究和实际应用中发挥着重要作用,但将用自然语言描述的具体优化问题转化为数学形式并选择合适的求解器解决问题需要大量的领域专业知识。我们引入了**OptimAI**,这是一个基于LLM的强大AI代理来解决用自然语言描述的优化问题的框架,其性能超过当前最先进的方法。我们的框架基于四个关键角色构建:(1)一个**形式化者**,将自然语言问题描述转化为精确的数学公式;(2)一个在执行前构建高层次解决方案策略的**规划者**;(3)一个能够与环境交互并反思结果以改进未来行动的**编码者**和**代码评论者**。消融研究证实所有角色都是必不可少的;移除规划者或代码评论者分别导致生产效率下降5.8倍和3.1倍。此外,我们引入了基于UCB的调试调度,以动态切换到替代计划,进一步提高了3.3倍的生产效率。我们的设计强调多智能体合作,使我们能够方便地探索将不同模型结合在一个统一系统中的协同效应。我们的方法在NLP4LP数据集上达到88.1%的准确率,在Optibench(非线性且无表格)子集上达到71.2%,分别将错误率降低了58%和50%,优于先前的最佳结果。
arXiv:2504.16913v1 Announce Type: cross
摘要:近年来,由于对学术诚信、虚假信息以及道德的人工智能应用的担忧,AI生成文本的检测已成为一个关键的研究领域。本文提出了一种新型框架COT Fine-tuned,用于检测AI生成的文本并识别负责生成该文本的具体语言模型。我们提出了一种双任务方法,其中任务A涉及将文本分类为AI生成或人类撰写,任务B则识别文本背后的特定LLM。我们方法的关键创新之处在于使用了链式思考推理,这使模型能够为自己的预测生成解释,从而增强透明度和可解释性。我们的实验结果显示,COT Fine-tuned 在两个任务中均实现了高精度,尤其是在LLM识别和人类-AI分类方面表现出色。我们还表明,CoT推理过程对模型的有效性和可解释性做出了重大贡献。
arXiv:2504.16907v1 宣告类型: cross
摘要: 文本转视频(T2V)生成模型已经取得了快速进展,并在娱乐、教育和市场营销等多个领域得到了广泛应用。然而,这些模型的对抗性脆弱性却很少被研究。我们观察到,在T2V生成任务中,生成的视频往往包含大量未在文本提示中明确指定的冗余信息,如环境元素、次要对象和额外细节,这些信息为恶意攻击者提供了嵌入隐藏有害内容的机会。利用这些固有的冗余性,我们提出了BadVideo,这是首个针对T2V生成的后门攻击框架。我们的攻击集中在设计目标对抗输出的两个关键策略上:(1) 空间-时间组成,通过结合不同的空间-时间特征来编码恶意信息;(2) 动态元素转换,通过在冗余元素的时间变化中引入变换来传达恶意信息。基于这些策略,攻击者的恶意目标可以无缝融入用户的文本指令,提供高隐蔽性。此外,通过利用视频的时间维度,我们的攻击成功地规避了主要分析单个帧内空间信息的传统内容审查系统。广泛实验表明,BadVideo在保持原始语义和在干净输入上维持出色性能的同时,实现了高攻击成功率。总体而言,我们的工作揭示了T2V模型的对抗性脆弱性,提醒人们注意潜在的风险和误用。我们的项目页面位于 https://wrt2000.github.io/BadVideo2025/。
arXiv:2504.16902v1 类别:交叉学科
摘要:随着制动力AI系统从基本的工作流演进到复杂的多智能体协作,如Google的Agent2Agent (A2A) 等稳健协议变得至关重要。为了促进安全采用并确保这些复杂交互的可靠性,理解A2A的安全实现是必要的。本文通过围绕A2A协议进行全面的安全分析来实现这一目标。我们检查其基本要素和操作动态,并将其置于智能体通信开发框架中。利用MAESTRO框架,专门设计用于AI风险,我们应用前瞻性威胁建模来评估A2A部署中的潜在安全问题,重点关注智能体卡片管理、任务执行完整性和认证方法等方面。
基于这些见解,我们推荐实用的安全开发方法和架构最佳实践,旨在构建稳健且有效的A2A系统。我们的分析还探讨了A2A与模型上下文协议 (MCP) 之间的协同作用如何进一步增强安全互操作性。本文为开发人员和架构师提供知识和实用指导,使他们能够自信地利用A2A协议构建稳健且安全的下一代制动力应用。
arXiv:2504.16837v1 宣告类型:交叉
摘要:在时间图中,边集会根据每条边关联的时间标签动态变化,每个时间标签表明该边在哪些时间步骤可用。如果存在一条路径连接两个顶点,并且路径上的边按照标签的增加顺序被遍历,那么这两个顶点是连接的。我们研究了在给定的最大允许时间$a$内确保所有顶点对都能连接,并且整体标签数量最小的边的可用时间调度问题。这个问题被称为“最小年龄标签化”(Minimum Aged Labeling, MAL),在物流、分配调度和社会网络中的信息传播等领域有许多应用,明智地选择时间标签可以显著降低基础设施成本、燃料消耗或温室气体排放。
之前已证明,在无向图中该问题NP完全,在有向图中为\APX-hard。本文我们在多个方面扩展了对MAL的复杂性和近似性的了解。首先,我们证明了当$a \geq 2$时,该问题不能在$O(\log n)$因子内近似,除非$\text{P} = \text{NP}$;当$a \geq 3$时,不能在$2^{\log^{1-\epsilon} n}$因子内近似,除非$\text{NP} \subseteq \text{DTIME}(2^{\text{polylog}(n)})$,其中$n$为图中的顶点数。然后我们给出了一组近似算法,在某些条件下几乎匹配这些下界。特别地,我们显示了近似性取决于$a$与输入图直径之间的关系。
我们进一步建立了与静态图上的基础优化问题“直径约束支配子图”(Diameter Constrained Spanning Subgraph, DCSS) 的关联,并证明我们的复杂性结果同样适用于DCSS。
arXiv:2504.16834v1 Announce Type: cross
摘要:准确的波高预测对于海上安全和海岸适应性至关重要,但传统的物理学模型和传统的机器学习方法在计算效率和非线性动态建模方面面临挑战。本研究介绍了Chronos,这是第一个采用大型语言模型(LLM)驱动的时间架构(Chronos),该架构针对波浪预测进行了优化。通过在西北太平洋盆地三个战略位置的海况历史数据上应用先进的时间模式识别,我们的框架实现了多模态改进:(1) 与PatchTST基线相比,训练时间减少14.3%,推理速度提高2.5倍,达到0.575均值绝对比例误差(MASE)单位;(2) 在全面的指标上实现了优越的短期预测(1-24小时);(3) 在延长范围的预测中保持预测主导地位(1-120小时);以及(4) 展示了零样本能力,维持中位性能(排名第4/12)对抗专业操作模型。这种增强时间建模的方法为海浪预测确立了一个新的标准,提供了计算效率高的解决方案,并为复杂地球物理系统建模提供了一个可转移的框架。
arXiv:2504.16828v1 交叉验证类型
摘要:逐步验证器——也称为过程奖励模型(PRMs)——是测试时扩展的关键成分。PRMs 需要步骤级别的监督,使它们在训练时很昂贵。这项工作旨在构建数据高效的 PRMs,将其作为口头描述的逐步奖励模型,通过生成验证链思考(CoT)验证解决方案中的每一步。我们提出了 ThinkPRM,这是一种长 CoT 验证器,通过少量的过程标签(PRM800K 的千分之一)进行微调。我们的方法利用了长 CoT 模型固有的推理能力,并在多种挑战性基准测试中优于 LLM-as-a-Judge 和判别性验证器。在 ProcessBench、MATH-500 和 AIME '24 下,ThinkPRM 在最好的 N 选择和奖励引导搜索中击败了基线。在 GPQA-Diamond 和 LiveCodeBench 的子集上进行领域外评估时,我们的 PRM 分别比在完整 PRM800K 上训练的判别性验证器高 8% 和 4.5%。最后,在相同的标记预算下,ThinkPRM 更有效地扩展了验证计算,与 ProcessBench 的子集相比,比 LLM-as-a-Judge 高出 7.2%。我们的工作强调了生成性、长 CoT PRMs 的价值,这些模型可以在验证测试计算扩展时需要最少的监督即可进行训练。我们的代码、数据和模型将在 https://github.com/mukhal/thinkprm 上发布。
arXiv:2504.16795v1 交叉公告类型:交叉
摘要:与变换器相比,循环神经网络(RNNs)的一个关键优势是它们的线性计算和空间复杂度使得它们能够更快地训练和推断长序列。然而,RNNs本质上无法随机访问历史上下文,简单地集成注意力机制可能会削弱它们的效率优势。为了解决这一限制,我们提出了一种新颖的注意机制——**层次稀疏注意**(HSA),它增强了RNNs的长距离随机访问灵活性,同时保持了它们在效率和长度泛化的优点。HSA 将输入分为块,选择前 $k$ 个块,并逐级聚合信息。核心创新在于基于每个块内部的细粒度词级信息来学习词块相关性。这种方法增强了在不同领域内外上下文中块选择的精确度。为了使HSA有效,我们进一步引入了一种与硬件对齐的内核设计。通过将HSA与Mamba结合,我们引入了RAMba,它在只在4K长度上下文中进行预训练的情况下,实现了在6400万个上下文中密码钥匙检索的完美准确率,并在各种下游任务上取得了显著改进,内存占用几乎保持恒定。这些结果表明,RAMba 在长上下文建模方面具有巨大的潜力。