arXiv:2404.11578v3 宣布类型: replace-cross
摘要:线性时序逻辑(LTL)提供了精确的方法来约束强化学习代理的行为。然而,在同时存在满足性和最优性条件的许多场景中,LTL 无法同时捕捉这两种条件。因此,当目标是在LTL约束下优化标量奖励时,需要LTL约束策略优化。在这个受限优化问题在深度强化学习(DRL)环境中变得困难,因为学习到的策略往往会忽略LTL约束,原因在于LTL满足情况的稀疏性。为了解决稀疏性问题,我们引入了周期经验重放(CyclER),这是一种新颖的奖励塑形技术,利用LTL约束的基本结构来引导策略趋向满足约束,通过鼓励部分与约束兼容的行为。我们提供了一个理论保证,即优化CyclER将能够以接近最优的概率实现满足LTL约束的策略。我们在三个连续控制领域评估了CyclER。我们的实验结果表明,与现有的奖励塑形方法相比,同时优化CyclER和现有的标量奖励能够找到性能更优的LTL满足策略。
arXiv:2403.17217v2 重新发布类型: 替换-交叉
摘要:视频驱动的神经面部重演旨在合成逼真的面部图像,成功地保留源面部的身份和外观,同时转移目标头部姿态和面部表情。现有的基于生成对抗网络(GAN)的方法要么出现失真和视觉伪影,要么重建质量差,即背景和诸如发色、眼镜和配件等几个重要的外观细节没有忠实重建。近期扩散概率模型(DPMs)的进步使高质量的逼真图像生成成为可能。为此,本文提出了DiffusionAct,这是一种利用扩散模型生成逼真图像的新方法,以执行神经面部重演。具体而言,我们提出了一种控制扩散自动编码器(DiffAE)的语义空间的方法,以便编辑输入图像的面部姿态,定义为头部姿态方向和面部表情。我们的方法支持一次完成、自我和跨个体的重演,而不需要特定个体的微调。我们与最先进的GAN-、StyleGAN2-和基于扩散的方法进行了比较,显示了更好的或相当的重演性能。
arXiv:2403.08824v2 声明类型: replace-cross
摘要:分析压力、抑郁和参与度比分析经常讨论的情感(如快乐、悲伤、恐惧和愤怒)更不常见且更加复杂。由于这些心理状态对心理健康和福祉的影响日益受到重视,因此对其重要性的认识也越来越高。压力和抑郁相互关联,并共同影响日常任务中的参与度,这突显了探索它们之间相互作用的必要性。这项调查首次同时探讨了计算方法在分析压力、抑郁和参与度方面的作用。我们呈现了用于分析这些心理状态的计算方法的时间线和技术分类,并讨论了最常用的数据集和输入模态,以及这些方法的类别和通用管道。随后,我们描述了最新的计算方法,并提供了在最常用数据集上这些方法的性能总结。接着,我们探讨了压力、抑郁和参与度分析的应用及其相关的挑战、限制和未来的研究方向。
arXiv:2402.15552v4 Announce Type: replace-cross
摘要: 我们提出了一种综合框架,以研究和利用机器人系统中的形态对称性。这些是机器人形态的固有权重,经常在动物生物学和机器人学中被观察到,它们源自运动结构的复制和质量的对称分布。我们展示了这些对称性如何扩展到机器人的状态空间以及本体感觉和外体感觉传感器测量中,导致机器人运动方程和最优控制策略的仿对称性。因此,我们认识到形态对称性为数据驱动和分析方法在机器人建模、控制、估计和设计中的使用提供了相关的且此前未被探索的几何先验,具有重要的意义。对于数据驱动的方法,我们证明形态对称性可以通过数据增强提高机器学习模型的样本效率和泛化能力,或者通过在模型架构上应用仿对称/不变约束来实现。在分析方法的背景下,我们利用抽象调和分析将机器人的动力学分解为较低维度的独立动力学的叠加。我们通过双足和四足机器人进行的合成和实地实验验证了我们的理论。最后,我们介绍了一个名为MorphoSymm的资源库,以促进本工作中提出的理论和应用的实际应用。
arXiv:2401.00248v4 宣告类型: replace-cross
摘要: Segment Anything Model(SAM)代表了计算机视觉基础模型的一个重要突破,提供了一个大规模图像分割模型。然而,尽管SAM在零样本设置下表现出色,但其分割掩码在准确界定对象边界方面缺乏细粒度细节。因此,探索SAM是否可以通过二值图像分割(DIS)任务实现高度准确的对象分割既有趣又具有价值。为了解决这个问题,我们提出了DIS-SAM,该模型旨在通过极其准确的细节将SAM推向DIS任务。DIS-SAM是一个专门为高度准确分割设计的框架,保持了SAM的可提示设计。DIS-SAM采用两阶段方法,将SAM与一个修改过的先进网络结合,该网络此前专门设计用于处理无提示的DIS任务。为了更好地训练DIS-SAM,我们通过修改原始掩码注释采用了地面真实增强策略。尽管结构简单,但DIS-SAM显著提升了SAM、HQ-SAM和Pi-SAM的F-measure,分别提高了8.5%、6.9%和3.7%。我们的代码详见 https://github.com/Tennine2077/DIS-SAM
arXiv:2312.05114v3 宣告类型: replace-cross
摘要:生成模型产生合成数据的目的是提供一种数据发布的隐私友好方法。然而,只有当模型满足差分隐私(DP)时,其隐私保证才被认为是稳健的。遗憾的是,这并不是一个普遍的标准,因为许多领先公司(实际上,还包括研究论文)使用基于测试合成数据与真实数据统计相似性的临时性隐私度量标准。
在本文中,我们探讨了实际合成数据部署中使用的隐私度量标准,并通过多种方式证明了它们的不可靠性。首先,我们提供了一些反例,即使隐私测试通过,严重隐私泄露也仍然可能发生,并借助最少的成本实例化了准确的成员身份和属性推断攻击。然后,我们引入了ReconSyn,这是一种重构攻击,它可以生成被视为隐私的多个合成数据集,但实际上泄露了与个别记录相关的独特信息。我们展示了ReconSyn仅通过单一生成模型的黑盒访问及其隐私度量即可恢复训练数据中78-100%的异常值。在这一过程中,我们证明了仅对模型应用差分隐私并不能缓解这种攻击,因为使用隐私度量会破坏端到端的差分隐私管道。
arXiv:2311.07056v2 Announce Type: replace-cross
摘要:车载网络(IVN)正面临复杂的外部网络攻击,尤其是新兴的伪装攻击,其检测难度极高,却具有严重的破坏性。本文提出了一种名为STATGRAPH的有效且细粒度的入侵检测方法,该方法通过车载控制器局域网络(CAN)消息的时间序列统计图学习和耦合关系图学习,来提高IVN安全服务的入侵检测能力。具体而言,STATGRAPH在每个CAN消息检测窗口中生成两个统计图:时间相关图(TCG)和耦合关系图(CRG),其中TCG中的边属性表示不同消息ID之间的时间相关性,而CRG中的边属性则表示邻居关系和上下文相似性。此外,基于TCG和CRG的图属性,训练了一个轻量级的浅层图卷积网络,该网络能够更有效地学习各种模式的普遍规律,并进一步提高检测性能。为了解决之前入侵检测中攻击类型不足的问题,本文选择了两个实际的车辆CAN数据集,涵盖了五种新的复杂且隐蔽的伪装攻击实例,这些攻击从未被研究过。实验结果显示,STATGRAPH在检测粒度和检测性能上均优于现有最先进的入侵检测方法。相关代码可在 https://github.com/wangkai-tech23/StatGraph 获取。
arXiv:2310.09949v4 宣布类型: replace-cross
摘要:检索增强语言模型(RALM)结合了一个大型语言模型(LLM)和一个向量数据库,在文本生成过程中检索上下文特定的知识。这种策略即使使用较小的模型也能实现令人印象深刻的生成质量,从而将计算需求降低多个数量级。为了高效灵活地服务 RALMs,我们提出了 Chameleon 这个异构加速器系统,集成了 LLM 和向量搜索加速器于一体,采用的是分解式架构。这种异构性确保了对于推理和检索都能高效服务,而分解架构则允许独立扩展 LLM 和向量搜索加速器,以满足 RALM 的不同需求。我们的 Chameleon 原型在 FPGAs 上实现了向量搜索加速器,并将 LLM 推理分配给 GPUs,CPU 作为集群协调器。在各种 RALMs 上进行评估表明,与混合 CPU-GPU 架构相比,Chameleon 在延迟方面可以减少多达 2.16 倍,并在吞吐量方面提速 3.18 倍。这些令人鼓舞的结果为未来 RALM 系统采用异构加速器不仅用于 LLM 推理,还有助于向量搜索铺平了道路。
arXiv:2305.18593v3 宣布类型:替换交叉引用
摘要:由于其在生成建模方面的出色表现,扩散模型是基于密度的异常检测的有吸引力的候选方法。本文研究了不同类型的应用扩散建模来进行无监督和半监督异常检测。特别是,我们发现降噪扩散概率模型(DDPM)在异常检测基准测试中表现良好,但计算成本高昂。通过将DDPM应用于异常检测进行简化,我们自然地引出了另一种替代方法,称为扩散时间估计(DTE)。DTE估计给定输入的扩散时间分布,并使用该分布的模或均值作为异常评分。我们为该密度推导出解析形式,并利用深度神经网络来提高推理效率。通过对ADBench基准测试进行实证评估,我们证明了所有基于扩散的异常检测方法在半监督和无监督设置中都表现出竞争力。值得注意的是,DTE在推理时间上比DDPM快了几个数量级,同时在基准测试中也优于DDPM。这些结果确立了基于扩散的异常检测方法为标准的无监督和半监督异常检测设置提供了一种可扩展的替代方案,与传统方法和最近的深度学习技术相比。
arXiv:2210.01892v4 公告类型: replace-cross
摘要:神经网络中的单个神经元通常表示多种无关特征的混合。这一现象称为多语义性,可能会使对神经网络的解释变得更加困难,因此我们旨在了解其原因。我们提议通过特征的“容量”这一视角来理解这一现象,其中特征容量是指每个特征在嵌入空间中占用的分数维度。我们展示了在一种玩具模型中,最优的容量分配往往会单语义性地表示最重要特征,多语义性地表示较不重要的特征(按照其对损失的影响程度成比例),并完全忽略最不重要的特征。多语义性在输入具有较高的峰度或稀疏性时更为普遍,并且在不同架构中出现的频率不同。在最优容量分配的基础上,我们进一步研究嵌入空间的几何结构。我们发现了一种块半正交结构,不同模型中的块大小有所不同,突出了模型架构对神经元解释性的影响。