arXiv:2412.14488v4 Announce Type: replace-cross
摘要:在本文中,我们考虑了一个无约束的随机优化问题,其中目标函数表现出高阶光滑性。具体地,我们提出了一种新的随机一阶方法(SFOM),其中在每次迭代中执行多次外推,并基于这些外推进行动量更新。我们展示了所提出的方法可以通过利用目标函数 \(f\) 的高阶光滑性来加速优化。假设存在某 \(p \ge 2\) 使得目标函数 \(f\) 的 \(p\) 阶导数是利普希茨连续的,并在一些其他附加温和假设下,我们建立了该方法找到一个点 \(x\),使得 \(\mathbb{E}[\|\nabla f(x)\|] \le \epsilon\) 的样本复杂度为 \(\widetilde{\mathcal{O}}(\epsilon^{-(3p+1)/p})\)。据我们所知,这是第一个利用目标函数任意阶光滑性进行加速的SFOM方法,其样本复杂度优于现有的最好结果,而无需假设均方光滑性条件。初步的数值实验验证了我们方法的实际性能,并支持了我们的理论结果。
arXiv:2412.11215v2 宣告类型: replace-cross
摘要: 我们开发了一类耦合动力系统的组成学习算法。虽然深度学习在从数据中建模复杂关系方面已经被证明是有效的,但系统组件之间的组成耦合往往会在状态变量上引入代数约束,这为许多现有的基于数据的动力系统建模方法带来了挑战。为开发约束动力系统的深度学习模型,我们引入了神经端港-哈密尔顿微分代数方程(N-PHDAEs),通过神经网络参数化端港-哈密尔顿微分代数方程中的未知项,包括动态部分和代数部分。为了训练这些模型,我们提出了一种算法,该算法利用自动微分进行索引降低,自动将神经 DAE 转换为等效的神经常微分方程(N-ODEs)系统,对于这些系统,已有成熟的状态推断和反向传播方法。提出的组成建模框架和学习算法可以广泛应用于学习不同应用领域的动力系统的控制导向模型,但在本文中,我们集中在对其在电气网络建模中的应用。模拟非线性电路动态的实验展示了我们方法的优势:与基线 N-ODE 模型相比,在长时间预测时间窗内,提出的 N-PHDAE 模型在预测精度和约束满足方面取得了数量级的改进。我们还通过在模拟的直流微电网上的实验验证了我们方法的组成能力:我们分别训练单独的 N-PHDAE 模型用于电网的不同部分,然后将它们耦合起来以准确预测更大规模网络的行为。
arXiv:2412.10778v2 宣告类型: replace-cross
摘要:当前先进的策略学习方法在提供充分信息的情况下,已经展示了能够开发出专家级策略的能力。然而,它们的需求,包括任务特定的奖励、动作标签的专家轨迹以及大量的环境交互,可能在许多场景中是昂贵的或根本不可用的。相反,人类在没有其他监督的情况下,仅通过模仿易于访问的网络视频,就能在几次尝试和错误中学得技能。在本文中,我们尝试通过一种新颖框架 Unsupervised Policy from Ensemble Self-supervised Labeled Videos (UPESV),让机器复制这种高效的观看和学习过程。UPESV 是一种无需奖励和任何其他专家监督即可从动作无关视频中高效学习策略的方法。UPESV 训练一个视频标签模型,通过几个有机结合的自监督任务推断专家视频中的专家动作。每个任务都履行其职责,它们共同使模型能够充分利用动作无关视频和无奖赏交互,以实现稳健的动力学理解和高级动作预测。同时,UPESV 从标记的专家视频中克隆一个策略,反过来收集环境交互以供自监督任务使用。在一次样本高效、无监督且迭代的训练过程中,UPESV 基于一个稳健的视频标签模型获得了先进的策略。在十六个具有挑战性的程序生成环境中进行的广泛实验表明,在除了视频之外没有任何其他监督的情况下,所提出的 UPESV 实现了最先进的交互限制策略学习性能(在 12/16 任务上优于五个当前先进的基线)。
arXiv:2412.08755v4 通告类型: replace-cross
摘要:后门攻击通过在输入中嵌入隐藏触发器,导致模型错误分类为目标标签,构成了一个关键威胁。尽管大量的研究集中在通过权重微调来减轻这些攻击对物体识别模型的影响,但很少有人直接关注检测已被植入后门的数据样本。由于在训练中使用了庞大的数据集,手工检查隐藏的后门触发器是不切实际的,即使是最先进的防御机制也无法完全抵消其影响。为了解决这一问题,我们提出了一种开创性的方法,在训练和推理期间检测未见的后门攻击图像。利用提示调优在视觉语言模型(VLMs)中的成功经验,我们的方法训练可学习的文本提示,以区分干净图像和包含隐藏后门触发器的图像。实验结果展示了该方法的卓越效果,在检测未见的后门触发器方面,取得了令人印象深刻的平均准确率为86%的成绩,两个知名的检测数据集上均达到新标准,确立了后门防御的新标准。
arXiv:2412.06947v3 通知类型: 替换-交叉
摘要:近年来,利用大型语言模型生成Verilog代码的兴趣日益增长。然而,当前生成的Verilog代码的质量仍然不尽如人意。这主要是由于缺乏高质量、组织良好的数据集以及针对Verilog进行创新性微调方法和模型的缺乏。在这篇论文中,我们介绍了一个新型开源数据集和相应的微调技术,该技术利用了我们称之为PyraNet的多层结构。我们的实验表明,采用提出的数据集和微调方法可导致更准确的微调模型,生成语法正确且功能正确的Verilog代码。评估结果显示,与CodeLlama-7B基准模型相比,改进幅度最高可达32.6%,与使用VerilogEval评估平台的最新模型相比,改进幅度最高可达16.7%。
arXiv:2412.06333v2 宣告类型: replace-cross
摘要:纸牌游戏"Hanabi"被认为是一个测试和开发多智能体强化学习(MARL)算法的强大介质,这是因为它的合作性质、隐藏信息、有限的沟通以及显着的复杂性。以往的研究努力在Hanabi中探索了MARL算法的能力,主要集中于高级架构设计和算法操作,以实现各种数量的合作者的先进性能。然而,这往往会导致复杂的解决方案策略,具有较高的计算成本,并需要大量的训练数据。对于人类来说,要有效地解决Hanabi游戏,他们需要使用约定,这通常提供了一种在预定义且各方一致同意的“规则”基础上,隐含传达想法或知识的方法。在包含部分可观测性的问题中,特别是在有限的沟通情况下,通过使用隐含的知识分享可以获得极大的好处。在本文中,我们提出了一种新的方法,通过约定来增强动作空间,这些约定作为多时间步骤和多智能体之间的特殊合作行动,要求智能体积极参与才能实现其目标。这些约定基于现有的人类约定,对Hanabi中各种数量的合作者自玩游戏和跨玩游戏的技术性能产生了显著的改进。
arXiv:2412.06206v2 文本型: replace-cross
摘要:索引是增强检索生成系统(RAG)性能的重要步骤。然而,现有方法基于语义相似性(相似性)或相关信息(关联性)组织数据,但未能从两个方面进行全面覆盖。我们的分析表明,仅建模一个方面会导致知识综合不足,导致在需要多跳推理的复杂任务中表现不佳。在本文中,我们提出了SiReRAG,一种新型的RAG索引方法,明确考虑了相似性和相关性。在相似性方面,我们遵循现有工作并探索了一些变体以基于递归总结构建相似性树。在相关性方面,SiReRAG从文本中提取命题和实体,通过共享实体对命题进行分组,并生成递归摘要以构建相关性树。我们将相似性和相关性树索引并展平为统一的检索池。我们的实验表明,SiReRAG在三个多跳数据集(MuSiQue、2WikiMultiHopQA 和 HotpotQA)上一致优于最先进的索引方法,平均F1分数提高了1.9%。作为一种相对高效的解决方案,SiReRAG显著增强了现有的重排序方法,平均F1分数提高了7.8%。我们的代码可在 https://github.com/SalesforceAIResearch/SiReRAG 获取。
arXiv:2412.05725v2 通知类型: 替换-交叉
摘要:视觉-语言模型(VLMs)的常识推理能力,尤其是归纳推理和论辩推理,仍然缺乏深入理解。大多数基准测试主要集中在典型的视觉场景上,这使得难以区分模型性能是源于敏锐的感知和推理技能,还是依赖于纯粹的统计回忆。我们认为,通过关注视频中的典型事件,可以更清晰地了解VLMs的核心能力。解释和理解这些分布外的事件要求模型超出基本的模式识别和重复其先验知识的范围。为此,我们引入了BlackSwanSuite,这是一个用于评估VLMs在通过归纳和论辩任务来推理意外事件的能力的基准测试。我们的任务人为地限制了模型提供的视觉信息量,同时询问他们关于隐藏的意外事件,或者提供新的视觉信息,这些信息可能会改变他们对事件的现有假设。我们精心编制了一个基准测试套件,包含超过3800个多项选择题,4900个生成性问题和6700个是非题,覆盖了1655个视频。在广泛评估包括GPT-4o和Gemini 1.5 Pro在内的各种最先进的VLMs,以及开源的VLMs如LLaVA-Video后,我们发现这些任务中人类的表现差距最高可达32%。我们的发现揭示了当前VLMs的关键局限性,强调了增强模型架构和训练策略的必要性。我们的数据和排行榜可在blackswan.cs.ubc.ca获取。
arXiv:2412.00114v2 公告类型: replace-cross
摘要:大型视觉语言模型(LVLMs)在解释视觉内容方面展现了令人瞩目的能力。虽然现有研究展示了这些模型在刻意放置的恶意文本面前的脆弱性,但这些文本通常很容易被识别为异常。在本文中,我们提出了首个生成场景一致性类型学恶意攻击的方法,能够在保持视觉自然性的同时误导高级LVLMs。我们的方法解决了三个关键问题:生成什么样的恶意文本、在场景中的何处放置以及如何无缝地集成。我们提出了一种基于LLM的场景一致性类型学恶意攻击计划(SceneTAP),采用三阶段过程:场景理解、恶意攻击规划和无缝集成。SceneTAP 利用链式推理来理解场景、制定有效的恶意文本、战略性地规划其位置,并提供详细的自然集成指令。随后,SceneTAP 使用局部扩散机制执行攻击。我们将该方法扩展到实际应用场景,在物理环境中打印并放置生成的补丁,展示了其实用意义。广泛的实验表明,我们的场景一致性恶意文本成功地误导了最新的LVLMs,包括ChatGPT-4o,即使在捕捉到物理设置的新图像后也是如此。我们的评估表明,在保持视觉自然性和语境适宜性的同时,攻击成功率有了显著提高。本文突显了当前视觉语言模型在复杂、场景一致的恶意攻击面前的漏洞,并提供了潜在防御机制的见解。
arXiv:2411.13951v4 宣告类型: 替换合并交叉
摘要: 由于缺乏高质量的数据集,多变量时间序列异常检测方法的基准测试是一项具有挑战性的任务。当前公开可用的数据集太小,不够多样化且包含的异常太简单,这阻碍了该领域的可衡量进展。我们提出了一种解决方案:通过最先进的仿真工具生成的多样、全面且非平凡的数据集,反映了汽车动力总成的真实行为,包括其多变量、动态和可变状态特性。此外,我们的数据集代表了一个离散序列问题,这是文献中先前提出的解决方案中未解决的问题。为了适应无监督和半监督异常检测设置,以及时间序列生成和预测,我们提供了数据集的不同版本,其中训练和测试子集根据任务提供了受污染和干净版本。我们还提供了一种基于确定性和变分自编码器的方法以及一种非参数方法的选择基线结果。如预期的那样,基线实验表明,在半监督版本的数据集上训练的方法优于无监督版本,突显了对在受污染训练数据下更稳健的方法的需求。此外,结果表明,所使用的阈值对检测性能有很大的影响,因此需要更多工作来开发无需标记数据即可找到合适阈值的方法。