LLM2D

arXiv 论文列表

arXiv:2501.15392v3 通知类型: replace-cross 摘要:随着软件系统变得更加复杂和可配置,性能问题越来越多地来自配置设计。这导致一些配置选项意外地降低了性能,这与开发者的原始预期相偏差。这种偏差,即配置性能 bug(CPBugs),具有破坏性且常常隐藏在源代码中。由于测试或acles难以设定,且配置衡量成本高昂,以及可测试的配置组合太多,因此高效测试 CPBugs 是极其困难的。现有的测试工具要么运行时间过长,要么在预算有限时难以检测 CPBugs,且测试 oracle 欠准确。本文旨在通过神经网络优先处理配置选项和值范围级别的测试,实现显著加快 CPBugs 的测试。我们提出的工具称为 NDP,是一种通用框架,可与不同的启发式生成器协同工作。核心思想是利用两个神经语言模型:一个用来估计 CPBug 类型以作为或acles,更重要的是,另一个用于推断选项成为 CPBug 相关的可能性,基于此可优先考虑哪些选项和值范围需要进行搜索。在多个不同版本的广泛使用系统上的实验表明,NDP 能在 87% 的情况下更好地预测 CPBug 类型,并且以高达 88.88 倍的测试效率加快找到更多的 CPBugs,超过了最先进的工具。
发布时间: 4/16/2025
查看原文
作者: Soumyendu Sarkar, Ashwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Sahand Ghorbanpour, Avisek Naug, Ricardo Luna Gutierrez, Antonio Guillen
arXiv:2501.14122v2 声明类型: replace-cross 摘要:我们提出了一种针对对抗性黑盒未目标化和目标化攻击的强化学习平台 RLAB,该平台允许用户从各种失真过滤器中选择,以创建对抗性示例。该平台使用一个强化学习代理,该代理在不显著增加输入图像失真的同时,还能导致目标模型产生错误分类。代理使用一种新颖的双重动作方法,在每一步探索输入图像,以识别适用于添加失真的敏感区域,同时去除对目标模型影响较小的噪声。这种双重动作导致了攻击更快且更高效的收敛。该平台还可以用于测量图像分类模型在特定失真类型下的鲁棒性。此外,使用对抗样本重新训练模型,在基准数据集上评估时显著提高了鲁棒性。所提出的平台在需要平均查询次数以导致错误分类方面优于最先进的方法。这促进了信任度并产生了积极的社会影响。
发布时间: 4/16/2025
查看原文
作者: Yuyang Zhou, Guang Cheng, Kang Du, Zihan Chen, Yuyu Zhao
arXiv:2412.21051v2 宣告类型: 替换-交叉 摘要:云计算技术的快速演进以及云计算应用的不断增加为日常生活带来了巨大益处。然而,不同组件的多样性和复杂性对云安全构成了显著挑战,尤其是在应对复杂和先进的网络攻击时。近年来,生成基础模型(GFMs),特别是大型语言模型(LLMs)的进步为安全情报提供了极具前景的解决方案。通过利用其在语言理解、数据分析、任务推理、行动规划和代码生成的强大能力,我们提出了 LLM-PD,这是一种新颖的主动防御架构,能够以主动的方式抵御各种威胁。LLM-PD 可通过对全面的数据分析和顺序推理高效地做出决策,并且能够在目标云上动态地创建和部署可操作的防御机制。此外,它可以根据之前交互中学习的经验灵活地自我演化,并在无需额外训练的情况下适应新的攻击场景。实验结果表明,其在防御效果和效率方面表现出色,尤其是在与其他现有的方法相比时,其出色的成功率尤为突出。
发布时间: 4/16/2025
查看原文
arXiv:2412.18370v3 宣布类型: replace-cross 摘要:图神经网络(GNNs)已成为欺诈检测、识别欺诈用户和揭示恶意行为的有效工具。然而,对基于GNN的欺诈检测器的攻击及其风险的研究鲜少,这使得潜在威胁无法获得充分解决。现有研究表明,欺诈活动正越来越多地组织为团伙或集团。在本文中,我们设计了攻击场景,在这些场景中,欺诈团伙旨在通过共谋掩盖其非法活动,使其欺诈节点被误分类为 benign。基于这些场景,我们研究了针对基于GNN的欺诈检测器的对抗攻击,并通过模拟三个真实世界的欺诈案件中的欺诈团伙攻击——垃圾评论、假新闻和医疗欺诈——来研究这一问题。我们将这些攻击定义为多目标图注入攻击,并提出 MonTi,一种基于变换器的多目标一次图注入攻击模型。MonTi 同时使用变换器编码器生成所有攻击节点的属性和边,比大多数现有的图注入攻击方法更有效地捕捉属性与边之间的相互依赖关系,这些方法通常按顺序生成这些元素。此外,MonTi 会根据不同的度预算为每个攻击节点动态分配资源,以探索涉及目标节点、候选节点和攻击节点的多种注入结构,而现有的方法则是为所有攻击节点固定度预算。实验结果显示,MonTi 在五个真实世界的图上优于最先进的图注入攻击方法。
发布时间: 4/16/2025
查看原文
作者: Chang-Jin Li, Jiyuan Zhang, Yun Tang, Jian Li
arXiv:2412.12144v2 通告类型: replace-cross 摘要:人格评估,特别是通过情境判断测试(SJT),是心理学研究、人才选拔和教育评估中的重要工具。本研究探讨了一流大型语言模型(LLM)GPT-4在中国语境下自动生成人格情境判断测试(PSJT)的可能性。传统SJT的开发劳动密集且容易产生偏差,而GPT-4提供了可扩展且高效的替代方案。开展了两项研究:研究1评估了提示设计和温度设置对内容效度的影响,发现优化后的提示在温度设置为1.0的情况下生成了创造性和准确的项目。研究2评估了GPT-4生成的PSJT的心理测量特性,结果显示这些测试表现出令人满意的可靠性和有效性,超过了手动开发的测试在测量五大人格特质方面的表现。本研究突显了GPT-4在开发高质量PSJT方面的效果,提供了一种可扩展且创新的心理测量测试开发方法。这些发现扩大了自动项目生成的可能性,并在心理学中展示了LLMs的应用前景,为资源受限环境下测试开发流程的简化提供了实际意义。
发布时间: 4/16/2025
查看原文
arXiv:2412.10575v2 通知类型: 替换-交叉 摘要:数据增强方法,尤其是最先进的插值基方法(如Fair Mixup),已被广泛证明可以增加模型的公平性。然而,这种公平性是在不反映模型不确定性且仅包含一个相对较大的少数群体的数据集上评估的。为了改进这一点,引入了多校准来在允许不确定性的同时衡量多少数群体的情况下的公平性。然而,现有提高多校准的方法是通过减少初始训练数据以创建后续处理用的保留集来实现的,这在少数群体训练数据已经稀少的情况下并不理想。本文使用多校准更严格地检查数据增强对分类公平性的影响。我们对两个包含多达81个边缘化群体的结构化数据分类问题进行了四个版本的Fair Mixup的压力测试,评估了多校准违例和均衡准确率。我们发现,在几乎每一次实验中,Fair Mixup实际上是降低了基线性能和公平性,而简单的原始Mixup在多次实验中均优于Fair Mixup和基线,尤其是在对小群体进行校准的情况下。将原始Mixup与多校准后续处理结合使用,通过在保留集上进行后续处理来强制执行多校准,进一步提高了公平性。
发布时间: 4/16/2025
查看原文
作者: Fiorenzo Parascandolo, Nicholas Moratelli, Enver Sangineto, Lorenzo Baraldi, Rita Cucchiara
arXiv:2412.09353v2 通知类型: 替换-交叉 摘要:近期的工作经验表明,Vision-Language 模型(VLMs)在完全理解人类语言的组合性质方面存在困难,通常将图像字幕视为“词袋”。因此,他们在需要更深刻理解句子中不同实体(主语、动词等)及其相互关系的组合任务上表现不佳。在本文中,我们使用依赖解析器构建因果图模型(CGM)来建模文本和视觉标记之间的依赖关系,并且训练一个由 VLM 视觉编码器条件化的解码器。不同于标准的自回归或并行预测,我们的解码器的生成过程是部分有序的,遵循 CGM 的结构。这种结构促使解码器仅学习句子中的主要因果依赖关系,而忽略伪相关性。在五个组合基准上的广泛实验表明,我们的方法在所有最新的组合方法上显著地表现出更优的效果,并且也优于使用更大数据集训练的方法。
发布时间: 4/16/2025
查看原文
作者: Chenyu Tang, Ruizhi Zhang, Shuo Gao, Zihe Zhao, Zibo Zhang, Jiaqi Wang, Cong Li, Junliang Chen, Yanning Dai, Shengbo Wang, Ruoyu Juan, Qiaoying Li, Ruimou Xie, Xuhang Chen, Xinkai Zhou, Yunjia Xia, Jianan Chen, Fanghao Lu, Xin Li, Ninglli Wang, Peter Smielewski, Yu Pan, Hubin Zhao, Luigi G. Occhipinti
arXiv:2411.19000v3 通知类型: 替换-交叉 摘要:中风后患者的居家康复面临着巨大挑战,因为临床环境外连续且个性化的护理往往受到限制。此外,缺乏全面解决家庭环境中多种监测和辅助需求的解决方案也 complicates了康复努力。在这里,我们提出了一种为中风后患者设计的多模态智能居家平台,该平台整合了可穿戴传感、环境监测和自适应自动化。一种配备机器学习管道的足底压力足垫,能够以高达 94% 的准确率对用户进行运动恢复阶段分类,从而实现行走模式的量化跟踪。一种头戴式眼动追踪模块支持认知评估,并允许无接触控制家庭设备,而环境传感器确保了亚秒级的响应时间。这些数据流通过嵌套的物联网 (IoT) 架构在当地融合,保护隐私并减少延迟。嵌入式大型语言模型(LLM)代理 Auto-Care 连续解释多模态数据,提供实时干预措施,包括发出个性化提醒、调整环境条件以及通知护理人员。在中风背景下实施此集成智能居家平台,与传统家庭环境相比,整体用户满意度平均提高了 115%(p<0.01)。除了中风,该系统还提供了一种可扩展框架,用于在更广泛的神经康复和居家养老应用中实现以患者为中心的长期护理。
发布时间: 4/16/2025
查看原文
作者: Leo Gold, Adam Bienkowski, David Sidoti, Krishna Pattipati, Omer Khan
arXiv:2411.16667v2 宣告类型: 更改交叉引用 摘要: 多目标最短路径(MOS)问题是在多属性图中从起始节点到目的地节点找到一组帕累托最优解。文献探讨了求解NP难MOS问题的多目标A*风格算法方法。这些方法使用一致启发式来计算目标节点的精确解集。广义MOS算法在每个节点维护一个"前沿"的部分路径,并进行有序处理以确保生成到达目标节点的帕累托最优路径。由于非支配路径的搜索空间急剧增加以及帕累托最优解的显著增加,随着目标数量的增加,该算法变得计算上不可行。虽然先前的工作集中在通过算法方法降低复杂性上,我们通过利用并行性来加速MOS问题。关键洞察是MOS算法依赖于有序执行部分路径以保持高工作效率。提出的并行算法(OPMOS)解锁了有序并行性,有效地利用了MOS中多路径的并发执行。通过使用NVIDIA GH200超级芯片的72核ARM CPU进行实证评估,证明了OPMOS在工作效率和并行性方面具有性能扩展的潜力,并使用实际应用进行了船舶航线规划。
发布时间: 4/16/2025
查看原文
作者: Lin Luo, Xin Wang, Bojia Zi, Shihao Zhao, Xingjun Ma, Yu-Gang Jiang
arXiv:2411.15244v2 公告类型: replace-cross 摘要: 大型预训练视觉-语言模型(VLMs),如对比语言-图像预训练(CLIP),已被证明对 adversarial 攻击易受影响,这引起了人们对它们在自动驾驶和医学诊断等关键安全应用中部署的担忧。增强预训练 VLMs 的一种有前途的方法是对抗性提示调优(APT),它在提示调优过程中应用对抗性训练。然而,现有的 APT 方法大多是单模态方法,仅为视觉或文本模态设计提示,这限制了它们在鲁棒性或干净准确度方面的有效性。在本文中,我们提出了一种双模态知识蒸馏框架——对抗性提示蒸馏(APD),通过将其与多模态知识转移集成来增强 APT。APD 同时优化视觉和文本模态的提示,同时从干净的预训练教师 CLIP 模型中蒸馏知识。在多个基准数据集上的广泛实验表明,我们的 APD 方法在对抗鲁棒性和干净准确度两个方面都优于当前最先进的 APT 方法。APD 的有效性也验证了使用非鲁棒教师模型来提高微调 VLMs 的泛化能力和鲁棒性的可能性。
发布时间: 4/16/2025
查看原文