arXiv 论文列表

作者: Atanu Kundu, Sauvik Gon, Rajarshi Ray

arXiv:2505.03863v1 交叉公告类型摘要：在医疗保健、航空电子设备和自动驾驶车辆等关键安全领域，计算物理系统（CPS）相当普遍。因此，对其运行安全的形式验证至关重要。本文针对反证问题进行研究，重点在于寻找系统中的不安全执行情况，而不是证明其不存在。本文的贡献是一个框架，该框架（a）将CPS的反证与其所使用的深度神经网络（DNN）的反证联系起来，（b）利用决策树固有的可解释性来加快CPS的反证速度。这通过以下方式实现：（1）为测试的CPS构建一个代理模型，既可以是DNN模型，也可以是决策树模型，（2）应用各种DNN反证工具对CPS进行反证，以及（3）根据从CPS模型的决策树代理中提取的安全违规解释提出的一种新型反证算法。所提出的框架有可能利用专门设计用于反证DNN鲁棒性属性的各种\emph{对抗性攻击}算法，以及最先进的DNN反证算法。尽管所介绍的方法适用于可以通用执行/模拟的系统，但我们特别展示了其在CPS中的有效性。我们展示了我们作为工具\textsc{FlexiFal}实现的框架，可以在具有线性和非线性动力学的CPS中检测难以发现的反证例子。决策树指导的反证在ARCH-COMP 2024反证基准测试中有效地找到了多个反证例子，展示了显著的结果~\cite{khandait2024arch}。

发布时间: 5/8/2025

查看原文

按需生成Deepfake：可访问的非合意深fake图像生成器的兴起

作者: Will Hawkins, Chris Russell, Brent Mittelstadt

arXiv:2505.03859v1 类别: cross 摘要：多模态机器学习的进步使文本到图像（T2I）模型越来越易于获取且流行。然而，T2I 模型引入了生成可识别个体肖像的非自愿描绘的风险，这类问题通常被称为深度假体。本文探讨了在线可获取的深度假体模型变体的可访问性。通过对两个流行存储库 Hugging Face 和 Civitai 上数千个可供下载的深度假体模型变体的元数据进行分析，我们展示了可获取的深度假体模型的显著增加。总共识别出约 35,000 个可供下载的深度假体模型变体，主要托管在 Civitai 上。自 2022 年 11 月以来，这些深度假体模型已被下载近 1500 万次，涵盖从全球名人到拥有不到 10,000 粉丝的 Instagram 用户的广泛个体。稳定扩散模型和 Flux 模型都用于创建深度假体模型，其中 96% 的模型针对女性，且许多模型表明生成非自愿亲密图像 (NCII) 的意图。深度假体模型变体经常采用低秩适应 (LoRA) 这种参数高效的微调技术创建，只需 20 张图片、24GB VRAM 和 15 分钟的时间，这使得通过消费级计算机进行这一过程变得广泛可行。尽管这些模型违反了托管平台的服务条款，并且监管试图阻止传播，但这些结果强调了需要采取更大行动以应对深度假体和 NCII 的创建。

发布时间: 5/8/2025

查看原文

一种关于 covert 和 overt 视觉注意力的主动推断模型

作者: Tin Mi\v{s}i\'c, Karlo Koledi\'c, Fabio Bonsignorio, Ivan Petrovi\'c, Ivan Markovi\'c

arXiv:2505.03856v1 通告类型：交叉摘要：有选择地注意相关刺激并过滤干扰物的能力对于处理复杂高维感官输入的代理至关重要。本文通过主动推断的框架引入了一种关于内隐和外显视觉注意力的模型，利用感官精度的动态优化以最小化自由能。该模型基于当前的环境信念和感官输入来确定视觉感官精度，从而影响内隐和外显模态下的注意分配。为了测试该模型的有效性，我们在Posner提示任务和一个简单的目标聚焦任务中使用二维(2D)视觉数据来分析其行为，并测量反应时间以探究外源性与内源性注意力以及有效和无效提示之间的相互作用。结果显示，外源性与有效提示通常会导致比内源性与无效提示更快的反应时间。此外，该模型表现出类似于返回抑制的行为，即在特定的提示-目标出现时间间隔后，以前注意过的区域会被抑制。最后，我们探讨了外显注意的不同方面，并表明不可自主的眼球偏移比有意图的眼球偏移发生得更快，但代价是灵活性较差。

发布时间: 5/8/2025

查看原文

GRAPE: 异质图表示学习在编码和非编码生物类型遗传扰动中的应用

作者: Changxi Chi, Jun Xia, Jingbo Zhou, Jiabei Cheng, Chang Yu, Stan Z. Li

arXiv:2505.03853v1 Announce Type: cross 摘要：预测基因扰动能够在湿实验之前识别出可能至关重要的基因，显著提高整体实验效率。由于基因是细胞生命的基础，构建基因调控网络（GRN）对于理解并预测基因扰动的影响至关重要。然而，当前的方法无法充分利用与基因相关的信息，并且仅仅依赖简单的评价指标来构建粗粒度的GRN。更重要的是，这些方法忽略了不同生物类型的功能差异，限制了捕捉潜在基因互作的能力。在这项工作中，我们利用预训练的大语言模型和DNA序列模型分别从基因描述和DNA序列数据中提取特征，作为基因表示的初始化。此外，我们首次在基因扰动中引入了基因生物类型信息，模拟了不同生物类型基因在调控细胞过程中的不同角色，并通过图结构学习（GSL）捕捉隐含的基因关系。我们提出了GRAPE，这是一种异质图神经网络（HGNN），能够利用从描述和序列中提取的特征初始化的基因表示，建模不同生物类型基因的不同角色，并通过GSL动态优化GRN。在公开可用的数据集上的结果显示，我们的方法取得了最先进的性能。

发布时间: 5/8/2025

查看原文

感知传感器推理时间攻击的影响分析

作者: Hanlin Chen, Simin Chen, Wenyu Li, Wei Yang, Yiheng Feng

arXiv:2505.03850v1 类别: cross 摘要: 作为关键的网络物理系统，自主车辆（AVs）的网络安全及相关安全问题一直是重要的研究主题。在所有AV模块中，感知是最容易受到攻击的模块之一，因为驾驶员和AV无法控制外部环境。目前针对AV感知安全的研究主要集中在感知的准确性方面。在本工作中，我们提出了一种基于推理时间攻击的影响分析方法。我们通过模拟系统表明，这种推理时间攻击不仅威胁到自主车辆本身的安全，还威胁到其他交通参与者的安全。

发布时间: 5/8/2025

查看原文

基于深度拓扑数据分析、自我监督学习和迁移学习技术的半导体图像分析高级聚类框架

作者: Janhavi Giri, Attila Lengyel, Don Kent, Edward Kibardin

arXiv:2505.03848v1 交叉类型：无摘要：半导体制造产生了大量图像数据，对于缺陷识别和产量优化至关重要，但通常超过了手动检查的能力。传统的聚类技术难以处理高维度的无标签数据，限制了它们在捕捉复杂模式方面的有效性。本文介绍了一种先进的聚类框架，将深度拓扑数据分析（TDA）与自监督学习和迁移学习技术结合在一起，提供了一种新的无监督图像聚类方法。TDA 捕捉内在的拓扑特征，而自监督学习从无标签数据中提取有意义的表示，减少了对标记数据集的依赖。迁移学习增强了框架的适应性和可扩展性，允许对新数据集进行微调而无需从零开始重新训练。该框架在合成和开源半导体图像数据集上进行了验证，成功地识别了与缺陷模式和工艺变化对齐的聚类。本文突显了结合TDA、自监督学习和迁移学习的变革潜力，为半导体制造和其他拥有大量图像数据集的领域提供了可扩展的前瞻性过程监控和质量控制解决方案。

发布时间: 5/8/2025

查看原文

GAME：通过图结构学习多模态交互以估计人格特质

作者: Kangsheng Wang, Yuhang Li, Chengwei Ye, Yufei Lin, Huanzhen Zhang, Bohan Hu, Linuo Xu, Shuyan Liu

arXiv:2505.03846v1 宣告类型：交叉摘要：从短视频中分析出显在的人格特征由于视觉、听觉和文本线索的复杂交互作用而面临重大挑战。在本文中，我们提出了GAME，这是一种图增强的多模态编码器，旨在稳健地建模和融合多源特征以实现自动人格预测。对于视觉流，我们构建了一个面部图，并引入了双分支Geo Two-Stream网络，将图卷积网络（GCNs）和卷积神经网络（CNNs）与注意力机制相结合以捕捉基于结构和外观的面部线索。为了涵盖这些线索，全局上下文和身份特征使用预训练的ResNet18和VGGFace骨干网络提取。为了捕捉时间动态，帧级特征通过带有时间注意力模块的双向GRU进行处理。同时，音频表示从VGGish网络获得，而语言语义则通过XLM-Roberta变换器捕捉。为了实现有效的多模态集成，我们提出了一种基于通道注意力的融合模块，后面跟着一个多层感知机（MLP）回归头以预测人格特征。广泛的实验表明，GAME在多个基准测试中始终优于现有方法，验证了其有效性和泛化能力。

发布时间: 5/8/2025

查看原文

parkinson's病患者面部视频用于抑郁症状评估的深度学习方法

作者: Ioannis Kyprakis, Vasileios Skaramagkas, Iro Boura, Georgios Karamanis, Dimitrios I. Fotiadis, Zinovia Kefalopoulou, Cleanthe Spanaki, Manolis Tsiknakis

arXiv:2505.03845v1 交叉类型：无摘要：帕金森病(PD)是一种神经退行性疾病，表现为运动和非运动症状。抑郁症状在PD患者中很常见，多达45%的患者受到影响。由于抑郁症状常与运动特征（如情感缺失）重叠而未被诊断。本研究探讨了深度学习(DL)模型——ViViT、Video Swin Tiny和3D CNN-LSTM带注意力层——通过面部视频分析评估通过老年抑郁量表(GDS)检测的抑郁症状的存在和严重程度。在同一分析中，还评估了患者处于给药一小时后的ON状态或停药12小时后的OFF状态时，这些参数的情况。使用来自178名患者共1,875个视频的数据集，Video Swin Tiny模型表现最佳，在二分类（抑郁症状的存在与否）中，准确率为94%，F1得分为93.7%；在多分类任务（无抑郁症状、轻度抑郁症状或重度抑郁症状）中，准确率为87.1%，F1得分为85.4%。

发布时间: 5/8/2025

查看原文

从太空borne到空气borne：基于基础模型的SAR图像多尺度适应合成

作者: Sol\`ene Debuys\`ere, Nicolas Trouv\'e, Nathan Letheule, Olivier L\'ev\^eque, Elise Colin

arXiv:2505.03844v1 交叉公告类型摘要：近年来，合成孔径雷达（SAR）卫星图像的可用性大幅提升，商业数据集也变得越来越丰富。然而，在航空配置下获取高分辨率SAR图像仍然十分昂贵且有限。因此，缺乏开源、标记良好或易于利用的SAR文本图像数据集阻碍了现有基础模型在遥感应用中的使用。在这个背景下，合成图像生成是增加这种稀缺数据的有效解决方案，能够使遥感应用更加广泛。利用ONERA过去15年丰富的航空数据档案，我们创建了一个包含11万张SAR图像的全面训练数据集，以利用一个预先训练的35亿参数的潜在扩散模型。在这项工作中，我们提出了一种利用基础模型中的空间条件方法将卫星SAR图像转换为空中SAR表示的新方法。此外，我们证明我们的管道能够有效弥合ONERA基于物理的模拟器EMPRISE生成的模拟图像的现实感差距。我们的方法探讨了AI在促进SAR成像技术方面的关键应用。据我们所知，这是我们首次在文献中引入这种方法。

发布时间: 5/8/2025

查看原文

CoCoB：自适应协作组合多臂bandits算法的在线推荐

作者: Cairong Yan, Jinyi Han, Jin Ju, Yanting Zhang, Zijian Wang, Xuan Shao

arXiv:2505.03840v1 通告类型: cross 摘要：通过利用邻近用户的协作信息来更好地捕捉目标用户偏好，聚类型多臂 bandits 在推荐系统中获得了广泛关注。然而，这些方法往往缺乏对相似用户的清晰定义，并且在独特偏好用户的邻居不足时面临挑战。在这种情况下，依赖错误识别的邻居的分歧偏好可能会降低推荐质量。为了应对这些局限性，本论文提出了一种自适应协作组合型多臂 bandits 算法（CoCoB）。CoCoB 运用了创新的双向 bandits 架构，并在用户和项目两侧都应用了 bandits 原理。用户-bandits 采用增强的贝叶斯模型来探索用户相似性，并根据相似概率阈值识别邻居。项目-bandits 将项目视为杠杆，利用用户-bandits 的输出生成多样化的推荐。CoCoB 动态适应，在有可用邻居偏好时利用这些偏好，否则则专注于目标用户。在线性上下文 bandits 情境下的后悔分析和三个真实世界数据集上的实验均表明，CoCoB 的有效性，相对于现有的最先进的方法，平均提高了 2.4% 的 F1 分数。

发布时间: 5/8/2025

查看原文