LLM2D

arXiv 论文列表

作者: Haitham S. Al-Sinani, Chris J. Mitchell
arXiv:2502.09484v1 宣告类型: cross 摘要: 传统的道德黑客攻击依赖于熟练的专业人员和耗时的命令管理,这限制了其可扩展性和效率。为了解决这些问题,我们引入了PenTest++,这是一个结合了自动化和生成式AI(GenAI)的AI增强系统,以优化道德黑客攻击的工作流程。PenTest++在受控的虚拟环境中开发,简化了关键的渗透测试任务,包括侦察、扫描、枚举、利用和文档记录,同时保持模块化和适应性强的设计。该系统在自动化与人类监督之间取得了平衡,确保在关键阶段进行知情决策,并提供了增强的效率、可扩展性和适应性等显著优势。然而,它也引发了伦理问题,包括隐私问题和AI生成的不准确性(幻觉)的风险。本研究强调了像PenTest++这样的AI驱动系统可以补充网络安全领域的人类专业知识,通过自动化常规任务,使专业人士能够专注于战略决策。通过整合强大的道德保障措施并促进持续改进,PenTest++表明了如何负责任地利用AI来应对不断演变的网络安全环境中的运营和伦理挑战。
发布时间: 2/14/2025
查看原文
作者: Yi Yu, Xue Yang, Yansheng Li, Zhenjun Han, Feipeng Da, Junchi Yan
arXiv:2502.09471v1 公告类型:交叉 摘要:准确地使用紧凑的旋转边界框(RBoxes)估计视觉对象的方向已成为一个突出的需求,这挑战了仅使用水平边界框(HBoxes)的对象检测现有模式。为了使检测器具备方向意识,引入了监督回归/分类模块,但代价高昂的是旋转注释。同时,一些现有的带有定向对象的数据集已经被标注为水平框或甚至单个点。利用较弱的单点和水平注释来训练定向对象检测器(OOD)变得既吸引人又具有挑战性。我们开发了Wholly-WOOD,这是一个弱监督OOD框架,能够以统一的方式充分利用各种标注形式(点、HBoxes、RBoxes及其组合)。仅使用HBox进行训练,我们的Wholly-WOOD在遥感和其他领域中的性能与RBox训练的版本非常接近,大大减少了为定向对象进行劳动密集型注释的繁琐工作。源代码可在 https://github.com/VisionXLab/whollywood(基于PyTorch)和 https://github.com/VisionXLab/whollywood-jittor(基于Jittor)获取。
发布时间: 2/14/2025
查看原文
作者: Matias Duran, Thomas Laurent, Ellen Rushe, Anthony Ventresque
arXiv:2502.09460v1 交叉公告类型:cross 摘要:姿态估计系统在多种领域中被使用,从体育分析到牲畜护理。鉴于它们的潜在影响,系统地测试它们的行为和失败潜力是非常重要的。这是一个复杂的任务,因为存在 oracle 问题,并且建立地面实况关键点时需要手动标注的高成本。这个问题是被不同应用所加剧的,不同的应用要求系统关注不同的主体(例如,人类与动物)或地标(例如,仅末端部位与全身和脸部),这使得标记测试数据很少可重复使用。为了应对这些问题,我们提出了 MET-POSE,一种姿态估计系统的元形态测试框架,它绕过了手动标注的需要,同时在不同情况下评估这些系统的性能。因此,MET-POSE 允许用户在更接近其应用条件的情况下评估这些系统,而无需标记特定测试数据集或依赖可用数据集,这些数据集可能不适应其应用领域。尽管我们对 MET-POSE 进行了通用定义,但我们还提供了一个不完全列举的元形态规则列表,这些规则代表了计算机视觉应用中的常见挑战,以及评估这些规则的具体方法。然后,我们通过将 MET-POSE 应用于 Mediapipe Holistic(一个最先进的姿态估计系统)和 FLIC 及 PHOENIX 数据集进行实验,证明了 MET-POSE 的有效性。通过这些实验,我们概述了 MET-POSE 输出可以以与使用手工标注数据的经典测试相当或更高的故障检测率发现姿态估计系统的缺陷的多种方式,并展示了用户可以根据其应用的缺陷和所需精度级别自定义规则集。
发布时间: 2/14/2025
查看原文
作者: Andrea Cini, Alexander Jenkins, Danilo Mandic, Cesare Alippi, Filippo Maria Bianchi
arXiv:2502.09443v1 宣告类型: cross 摘要: 我们通过利用相关序列的观测值来解决时间序列预测中的不确定量化问题。利用图表示的关联深度学习方法是获取时空数据和相关时间序列点估计最有效的工具之一。然而,在同一背景下,利用关系结构来估计这些预测的不确定性的问题几乎被忽略了。为了解决这个问题,我们提出了一种基于统一预测框架和分位数回归的新型无分布方法。尽管最近对统一预测在序列数据中的应用,现有的方法对每个目标时间序列独立操作,并在构建预测区间时未考虑它们之间的关系。我们通过引入一种基于图深度学习操作的新型统一预测方法来填补这一空白。我们的方法名为统一关系预测 (CoRel),该方法不需要知道先验关系结构(图),并且可以在任何预训练的时间序列预测器之上应用。此外,CoRel 包括一个适应性组件,用于处理非互换数据和输入时间序列的变化。我们的方法提供了准确的覆盖率,并在相关基准中实现了最先进的不确定量化。
发布时间: 2/14/2025
查看原文
作者: Dario Spoljaric, Yashuai Yan, Dongheui Lee
arXiv:2502.09436v1 宣传类型: 交叉 摘要:基于强化学习的腿部运动使腿式机器人能够执行高度动态的运动,但通常伴随着关节刚度的手动调整所需耗费的时间。本文介绍了一种新的控制框架,将可变刚度整合到动作空间中,与关节位置一同使用,从而实现按关节刚度(PJS)、按腿刚度(PLS)和混合关节-腿刚度(HJLS)的分组刚度控制。我们展示了在速度跟踪和推力恢复方面,按腿刚度(PLS)分组的可变刚度策略优于基于位置的控制策略。相比之下,HJLS 在能效方面表现出色。此外,我们的方法通过从模拟到现实的转移,在多样化的户外地形上展示了鲁棒的行走行为,虽然该策略主要在平坦的地面上进行了训练。我们的方法通过消除关节刚度的单独调整简化了设计,同时在各种度量标准下保持了竞争力的结果。
发布时间: 2/14/2025
查看原文
作者: Ziyi Chen, Yang Yuan, Siming Zheng, Jialong Guo, Sihan Liang, Yangang Wang, Zongguo Wang
arXiv:2502.09423v1 Announce Type: cross 摘要:晶体结构是理解材料的物理和化学性质的基础。生成模型已经成为了晶体结构预测(CSP)的新范式,然而准确捕捉晶体结构的关键特征,如周期性和对称性,仍然是一个重大挑战。在本文中,我们提出了一种增强的变换器变分自编码器用于晶体结构预测(TransVAE-CSP),该模型学习稳定材料的特征分布空间,使其能够重建和生成晶体结构。TransVAE-CSP 通过结合自适应距离扩展和不可约表示来有效地捕捉晶体结构的周期性和对称性,其编码器是一个基于等变点积注意力机制的变换器网络。在碳_24、perov_5 和 mp_20 数据集上的实验结果表明,TransVAE-CSP 在各种建模指标下的结构重建和生成任务中均优于现有方法,为其在晶体结构设计和优化中的应用提供了强大的工具。
发布时间: 2/14/2025
查看原文
作者: Ahmad Farooq, Kamran Iqbal
arXiv:2502.09417v1 类别:交叉学科 摘要:强化学习(RL)已成为自动化领域内优化挑战的关键工具,推动了多个领域的显著进步。这篇综述文章探讨了当前自动化领域内RL的现状,特别关注其在制造、能量系统和机器人技术中的角色。文章讨论了每个领域的前沿方法、主要挑战和未来的研究方向,突出了RL解决复杂优化挑战的能力。文章详细审查了基于RL的优化方法在自动化中的优势和限制。指出了在RL优化过程中遇到的常见挑战,包括样本效率和可扩展性问题;安全性和稳健性问题;可解释性和可信度问题;迁移学习和元学习问题;以及实际应用和集成问题。此外,文章还探讨了应对这些挑战的潜在策略和未来的研究途径。另外,该调查还列出了相关研究论文的全面清单,使其成为对该领域感兴趣的学者和 practitioner 不可多得的指南。
发布时间: 2/14/2025
查看原文
作者: Daniel Fleischer, Moshe Berchansky, Gad Markovits, Moshe Wasserblat
arXiv:2502.09390v1 宣告类型: cross 摘要:在自然语言处理飞速发展的领域中,大规模语言模型(LLMs)被赋予了解决日益复杂的推理挑战的任务。传统的链式思考提示方法虽然显示出一定的潜力,但往往未能充分利用模型的推理能力。本文介绍了SQuARE(顺序问答推理引擎),这是一种新型提示技术,旨在通过自我质疑范式提高推理能力。SQuARE 在借鉴CoT框架的基础上,促使模型生成和解决多个辅助问题,然后再解决主要查询,从而促进对话题各方面更为全面的探索。我们在Llama 3和GPT-4o模型上,横跨多个问答数据集的广泛评估表明,SQuARE 显著超越了传统的链式思考提示方法和现有的重写并回应方法。通过系统地分解查询,SQuARE 提升了LLMs在推理任务中的能力。相关代码已公开可在 https://github.com/IntelLabs/RAG-FiT/tree/square 获取。
发布时间: 2/14/2025
查看原文
作者: Quantao Yang, Michael C. Welle, Danica Kragic, Olov Andersson
arXiv:2502.09389v1 交叉公告类型: 摘要:近期在技能学习方面的进展通过使机器人能够从实际数量的演示中学习复杂的操纵任务,将机器人操纵提升到了新的高度。然而,这些技能通常局限于训练数据中展示的具体操作、对象和环境实例,并且在转移到同一类别中的其他实例时存在困难。在本文中,我们提出了一种开放词汇量的空间语义扩散策略(S$^2$-Diffusion),该策略能够在实例级的训练数据与类别级之间实现泛化,从而使技能在相同类别的实例之间具有可转移性。我们展示了可以通过一个可提示的语义模块与空间表示相结合来捕获技能的功能方面。此外,我们提出利用深度估计网络仅使用单个RGB相机即可。我们的方法在多种机器人操纵任务上进行了评估和比较,包括模拟和真实世界环境。实验结果显示,S$^2$-Diffusion对于类别无关的因素变化具有不变性,同时还能在同一个类别中的其他实例上实现令人满意的性能,即使未对其特定实例进行训练也是如此。所有真实世界的实验视频都可以在补充材料中找到。
发布时间: 2/14/2025
查看原文
作者: Blanca Calvo Figueras, Eneko Sagarzazu, Julen Etxaniz, Jeremy Barnes, Pablo Gamallo, Iria De Dios Flores, Rodrigo Agerri
arXiv:2502.09387v1 宣告类型: cross 摘要: 我们介绍了一个专业翻译扩展的 TruthfulQA 基准,旨在评估巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语中的真实性。对大型语言模型(LLMs)真实性的评估主要在英语中进行。然而,LLMs 跨语言保持真实性的能力尚未得到充分探索。我们的研究评估了 12 个最先进的开源 LLMs,使用人工评估、多项选择指标以及 LLM 作为裁判的评分方法,比较了基础模型和指令调整模型。我们的研究发现,虽然 LLMs 在英语中的表现最佳,在巴斯克语(最低资源语言)中表现最差,但不同语言之间的总体真实性差异比预期的小得多。此外,我们展示了 LLM 作为裁判与人工判断的相关性比多项选择指标更紧密,并且信息量在真实性评估中起着关键作用。我们的结果还表明,机器翻译为将真实性基准扩展到其他语言提供了一种可行的方法,为专业翻译提供了可扩展的替代方案。最后,我们观察到,跨语言相比情境依赖性和时间依赖性问题,通用知识问题更好处理,这强调了需要考虑到文化与时间变异性的真实性评估。数据集和代码在开源许可下可供公众使用。
发布时间: 2/14/2025
查看原文