LLM2D

arXiv 论文列表

作者: Sabbir M. Saleh, Ibrahim Mohammed Sayem, Nazim Madhavji, John Steinbacher
arXiv:2411.09200v1 CI/CD类型:交叉 摘要:持续集成/持续部署(CI/CD)是高级软件开发的基础,支持代码更改更快更高效地交付到云环境。然而,CI/CD流水线中的安全问题仍然具有挑战性,且遭遇了多次安全事件(例如,DDoS攻击、机器人攻击、Log4j等)发生在云环境中。虽然有大量的文献讨论静态安全测试和CI/CD实践,但只有少数文献涉及通过网络流量模式分析来检测不同的网络攻击。这项研究旨在通过AI(人工智能)的支持来增强CI/CD流水线的安全性,目标是识别流水线和云平台中网络流量模式的异常行为或变化。该系统应整合到工作流程中,以持续监控流水线活动和云基础设施。此外,该研究旨在探索适应性响应机制,以减轻检测到的异常或安全威胁。这项研究使用了两个流行的网络流量数据集,CSE-CIC-IDS2018和CSE-CIC-IDS2017。我们实施了卷积神经网络(CNN)和长短期记忆(LSTM)的组合来检测异常流量模式。我们达到了98.69%和98.30%的准确率,并在不同的CI/CD流水线阶段生成了日志文件,以解决现代DevOps实践中面临的安全挑战,从而促进软件安全性和可靠性的发展。
发布时间: 5/5/2025
查看原文
作者: Dongliang Guo, Mengxuan Hu, Zihan Guan, Thomas Hartvigsen, Sheng Li
arXiv:2505.01343v1 通知类型: 新 摘要: 大型多模态模型随着时间的推移必然会因事实的改变和之前学到的信息变得过时而逐渐退化。传统的调优方法(如微调)由于模型的大小和复杂性往往不适用于更新这些模型。相反,在模型中直接进行知识编辑提供了一个更可行的解决方案。然而,当前的模型编辑技术通常忽略了不同事实的独特影响范围,导致在通用性和局部性方面都降低了模型性能。为了解决这一问题,我们引入了多模态模型编辑中的通用性-局部性权衡的概念。我们开发了一个名为OKEDIT的新模型编辑数据集,专门设计用于有效评估这一权衡。基于此基础,我们提出了BalancEdit,这是一种新型的平衡模型编辑方法,能够动态实现通用性和局部性的最佳平衡。BalancEdit 利用一种独特的机制,为每个事实生成正样本和负样本,以准确确定其影响范围,并使用一个离散的、局部的编辑代码本将这些见解整合到模型的潜在空间中,而不修改模型权重。据我们所知,这是第一个明确解决多模态模型编辑中通用性-局部性权衡的方法。我们的全面结果证实了BalancEdit的有效性,在实现最小权衡的同时保持了强大的编辑能力。我们的代码和数据集将可供使用。
发布时间: 5/5/2025
查看原文
作者: Lo Pang-Yun Ting, Hong-Pei Chen, An-Shan Liu, Chun-Yin Yeh, Po-Lin Chen, Kun-Ta Chuang
arXiv:2505.01305v1 宣告类型: 新 摘要:早期识别患者恶化对于降低死亡率至关重要。心率数据在评估患者健康状况方面显示出希望,可穿戴设备提供了一种实时监控的成本效益解决方案。然而,从多样的心率数据中提取有意义的见解以及处理可穿戴设备数据中的缺失值仍然是关键挑战。为了解决这些挑战,我们提出了一种名为TARL的新颖方法,该方法通过建模心率时间序列中代表子序列(称为形核子)的结构关系来建模。TARL创建了一个形核子转换知识图,以建模心率时间序列中的形核子动力学,指示疾病进展情况和潜在的未来变化。我们进一步引入了基于转换的知识嵌入,以加强形核子之间的关系并量化缺失值的影响,从而能够构建全面的心率表示。这些表示捕捉了解释性结构并预测未来的心率趋势,有助于早期疾病检测。我们与医生和护士合作,从可穿戴设备和评估疾病严重程度的诊断指标中收集ICU患者的心率数据,以评估恶化情况。在实际ICU数据上的实验表明,TARL既具有高度的可靠性又能够实现早期检测。一个案例研究进一步展示了TARL的可解释检测过程,突显了其作为AI驱动工具的优势,以帮助临床医生识别患者早期恶化的迹象。
发布时间: 5/5/2025
查看原文
作者: Federico Maria Cau, Lucio Davide Spano
arXiv:2505.01192v1 公告类型: 新 摘要: 人工智能(AI)系统在各个领域越来越多地用于决策制定,这引发了关于它们应提供何种信息和解释的辩论。已有大部分关于可解释人工智能(XAI)的研究集中在基于特征的解释上,对其他风格的解释关注较少。如认知需要(Need for Cognition, NFC)这样的人格特质也可能导致低NFC和高NFC个体在决策制定中的不同结果。我们研究了在贷款申请情境中呈现AI信息(预测、置信度和准确性)以及不同解释风格(基于实例的、基于特征的、基于规则的和假设性反事实的)对准确性、对AI的信任度以及认知负荷的影响。我们还考察了低NFC和高NFC个体在贷款属性、AI信息和解释XAI界面元素上的优先级差异,以及准确性与认知负荷的不同。研究发现,高AI置信度显著增加了对AI的信任度,同时减少了认知负荷。基于特征的解释并未在准确性方面优于其他条件。尽管假设性反事实解释的理解度较低,但在AI预测正确时,它们提高了总体准确性,增加了对AI的信任度并减少了认知负荷。然而,低NFC和高NFC组在准确性与认知负荷方面均未表现出显著差异,这引发了对人格特质在AI辅助决策中的作用的疑问。这些发现强调了在XAI界面中以用户为中心的个性化的重要性,需要融入多样化的解释风格,并探索多种人格特质及其他用户特征,以优化人类与AI的合作。
发布时间: 5/5/2025
查看原文
作者: Mehrdad Asadi, Roxana R\u{a}dulescu, Ann Now\'e
arXiv:2505.01181v1 通知类型: 新 摘要: 群集系统,例如多无人机网络,在关键环境中表现出色,这些环境需要自主代理进行分散决策以高效而稳健地完成团队级目标,例如监测、 surveillance 或灾难救援。不幸的是,在野外的团队级协调策略容易受到数据中毒攻击的影响,导致代理之间的不准确协调或敌对行为。为了应对这一挑战,我们贡献了一个框架,通过可解释的人工智能方法研究此类数据中毒攻击的效果。我们使用进化智能模型代理之间的交互,其中最优联盟战略性地出现以执行协同任务。然后,通过严格的评估,使用数据操纵攻击系统地毒化群集模型。我们展示了可解释的人工智能方法的应用,以量化中毒对团队策略的影响,并提取特征表征,以实现诊断。我们的发现表明,当模型被毒化超过10%时,可以识别出导致效率低下合作的非最优策略。
发布时间: 5/5/2025
查看原文
arXiv:2505.01081v1 宣布类型: 新闻 摘要: 人工智能(AI)在专项任务中取得了显著的成功,但在高效技能获取和泛化方面仍存在问题。最小描述长度(Minimum Description Length,MDL)基准测试(Abstraction and Reasoning Corpus,ARC)评估智能基于最小的训练需求。尽管大型语言模型(LLMs)最近已经提高了ARC的表现,但它们依赖大量的预训练和高昂的计算成本。我们引入了MADIL(基于MDL的AI),这是一种利用MDL原则进行高效归纳学习的新方法。MADIL进行基于模式的分解,使得结构化的泛化成为可能。虽然其性能(在2024年ArcPrize中为7%)仍低于基于LLM的方法,但它提供了更高的效率和可解释性。本文详细介绍了MADIL的方法论,其在ARC的应用,以及实验评估。
发布时间: 5/5/2025
查看原文
作者: Zongyuan Li, Pengfei Li, Runnan Qi, Yanan Ni, Lumin Jiang, Hui Wu, Xuebo Zhang, Kuihua Huang, Xian Guo
arXiv:2505.01073v1 宣布类型: 新 摘要: 在大规模语言模型(LLMs)的预训练中缺乏特定领域的数据,严重限制了基于LLMs的决策系统在特殊应用中的能力,而事后在特定场景下对模型进行训练则需要大量的计算资源。在本文中,我们提出了一种名为Retrial-Augmented Learning (RAL)的无奖励自我监督学习框架,该框架在无需训练模型的情况下运作。通过将 Retrieval-Augmented Generation (RAG) 发展为组织中间数据的模块,我们实现了提出假设、验证假设和生成知识的三个阶段自主知识生成过程。该方法在LLM-PySC2环境中进行了评估,这是一个代表性的决策平台,结合了足够的复杂性和特定领域的知识要求。实验表明,所提出的方法通过生成和利用验证过的知识,有效减少了幻觉,并以极低的成本提高了决策性能。同时,该方法在异常分布(OOD)任务、鲁棒性和可迁移性方面表现出潜力,使其成为解决决策问题和自主知识生成的一个成本效益高但有效的解决方案。
发布时间: 5/5/2025
查看原文
作者: Huy Q. Ngo, Mingyu Guo, Hung Nguyen
arXiv:2505.01028v1 通告类型: 新 摘要: Windows Active Directory (AD) 系统中的安全漏洞通常通过攻击图进行建模,增强 AD 系统涉及一个迭代工作流:安全团队提出一个要移除的边,而 IT 运维团队需要手动审核这些修复后再实施移除。由于验证需要大量的手动工作,我们提出了一个自适应路径移除问题,旨在最小化这个迭代移除过程中的步骤数。在我们的模型中,向导在每一步提出一条攻击路径,并将其表示为多选项集合提供给 IT 经理。然后,IT 经理从中选择一个边进行移除。这一过程将继续进行,直到目标 \(t\) 与源 \(s\) 断开连接,或者提出路径的数量达到 \(B\)。该模型旨在通过最小化 IT 经理与安全向导之间的交互次数来优化人力投入。我们首先证明该问题是 \(\#P\) 硬的。然后,我们提出了一组解决方案,包括精确算法、近似算法以及几种可扩展的启发式方法。我们最佳的启发式方法被称为 DPR,它在处理大规模图方面比精确算法更有效,并且在所有图中都持续优于近似算法。我们通过在多个合成 AD 图和从实际组织收集的 AD 攻击图上验证我们的算法的有效性。
发布时间: 5/5/2025
查看原文
作者: Xinran Zhao, Hanie Sedghi, Bernd Bohnet, Dale Schuurmans, Azade Nova
arXiv:2505.01009v1 规划类型: 新 摘要: 规划对于人工智能系统至关重要,它们需要提前思考并主动决定一系列行动以在虚拟和现实世界中实现目标。最近关于大型语言模型(LLMs)的研究揭示了它们在各种任务中规划能力的可能性。然而,上下文中的哪些信号影响模型性能仍不清楚。在本工作中,我们探索如何通过上下文学习(ICL)提高模型的规划能力,特别是哪些信号有助于选择范例。通过广泛的实验,我们发现常用的示例问题相似性可能导致完全不同的规划方案,从而误导模型。为应对这一问题,我们提出了一种基于规划辅助动作序列相似性(AS)的范例采样和过滤方法。我们提出了GRASE-DC:一个两阶段的管道,首先重新采样高AS范例,然后通过AS动态聚类精选范例,以实现相关性和多样性的平衡。我们的实验结果证实,GRASE-DC在各种规划任务中取得了显著的性能提升(绝对准确性最多提升11-40点,平均所需的范例数量减少27.3%)。通过GRASE-DC* + VAL,我们迭代应用GRASE-DC并使用验证器,能够进一步将性能提升18.9%。 广泛的分析验证了GRASE-DC在各种基础LLMs和古典规划基准以及自然语言规划基准中的持续性能提升。GRASE-DC还能通过使用简单问题作为范例,在难以解决的问题上将规划准确性进一步提升约24个绝对点,这表明它具备对分布外问题的泛化能力。
发布时间: 5/5/2025
查看原文
arXiv:2505.00972v1 仿真测试类型:新 摘要:基于仿真的测试对于验证自动驾驶车辆(AVs)至关重要,然而现有的场景生成方法要么过度拟合于常见的驾驶模式,要么以离线且非交互的方式运行,无法暴露罕见且至关重要的安全边缘案例。在本文中,我们介绍了一种在线的、检索增强的大语言模型(LLM)框架,用于生成关键的安全驾驶场景。我们的方法首先使用基于LLM的行为分析器从观察到的状态中推断出背景车辆的最危险意图,然后查询额外的LLM代理以合成可行的对抗轨迹。为了减轻灾难性遗忘并加速适应,我们通过动态记忆和检索库来增强框架,该库包含意图规划器对,并在出现新意图时自动扩展其行为库。使用Waymo Open Motion数据集的评估表明,我们的模型将最低碰撞时间从1.62秒降低到1.08秒,并且碰撞率降低了75%,显著优于基线模型。
发布时间: 5/5/2025
查看原文