arXiv:2503.12157v2 宣告类型: replace-cross
摘要:图中的节点分类旨在通过利用少量标记节点来预测未标记节点的类别。然而,加权图中通常包含噪声边和异常边权重,这可以扭曲节点之间的精细关系并阻碍准确分类。我们提出了一种结合权重学习和图结构学习的Edge Weight-aware Graph Structure Learning (EWGSL) 方法,以解决这些问题。EWGSL 通过在图注意力网络中重新定义注意力系数来结合节点特征和边权重,从而改进节点分类。此外,EWGSL 应用图结构学习稀疏化注意力系数,并使用修改后的 InfoNCE 损失函数来通过适应去噪后的图权重而提高性能。广泛的实验结果表明,与最佳基线相比,EWGSL 的平均 Micro-F1 提高了 17.8%。
arXiv:2503.11917v2 通报类型:替换-交叉
摘要:随着前沿AI模型变得更加具备能力,评估其潜在的发动网络攻击的能力对于确保通用人工智能(AGI)的安全发展至关重要。目前的网络评估努力往往是临时性和随意性的,缺乏对攻击阶段的系统性分析和针对防御的指导。本研究提出了一个新颖的评估框架,通过以下方式解决这些限制:(1)考察端到端的攻击链,(2)识别AI威胁评估中的缺口,并(3)帮助防御者优先考虑受目标攻击影响的缓解措施,并使用AI进行对手模拟以进行红队训练。我们的方法将现有的网络攻击链框架应用于AI系统。我们分析了Google威胁情报团队catalogued的超过12,000个实际的AI在网络攻击中的应用实例。基于这些分析,我们精心挑选了七个代表性的网络攻击链原型,并进行了瓶颈分析以确定潜在的由AI驱动的成本中断点。我们的基准包括了50个新的挑战,涵盖了各种网络攻击阶段。利用这一基准,我们制定了针对特定攻击阶段的网络安全模型评估方法,报告了AI在其特定攻击阶段增强进攻能力的潜力,并提供了优先防御的建议。我们认为这代表了迄今为止发布的最全面的AI网络风险评估框架。
arXiv:2503.11833v2 更新类型: 交叉替换
摘要: 我们证明了在具有自适应学习率的流形上随机梯度下降的收敛定理,并将其应用于加权低秩逼近问题。
arXiv:2503.11720v2 通知类型: replace-cross
摘要:我们介绍了丰富偏好优化(RPO),这是一种利用丰富反馈信号来改进文本到图像扩散模型微调过程中偏好对策展的新管道。传统的 方法,如扩散-DPO,通常仅依赖于奖励模型标签,这种方法可能存在不透明性,对偏好的背后原因提供有限的见解,并且容易出现 奖励作弊或过拟合等问题。相比之下,我们的方法从生成合成图像的详细评价开始,以提取可靠且可操作的图像编辑指示。通过实 施这些指示,我们创建了改进的图像,从而生成合成且信息丰富的偏好对,这些偏好对作为增强的调参数据集使用。我们展示了我们的新管道及其生成的数据集在微调最先进的扩散模型中的有效性。
arXiv:2503.09433v2 宣告类型: replace-cross
摘要:识别源代码中的漏洞至关重要,特别是在关键软件组件中。现有的方法,如静态分析、动态分析、形式验证和最近的大语言模型,广泛用于检测安全缺陷。本文介绍了CASTLE(CWE自动安全测试和低级评估)基准框架,用于评估不同方法的漏洞检测能力。我们使用250个手工制作的微基准程序集对25种常见的CWE进行了评估,其中包括13种静态分析工具、10种大语言模型和2种形式验证工具。我们提出了CASTLE评分,这是一种新的评估指标,以确保公平比较。我们的结果显示了关键差异:形式验证工具ESBMC(一种形式验证工具)减少了假阳性,但在超出模型检查的漏洞,如弱加密或SQL注入方面表现不佳。静态分析器由于高假阳性率增加了开发人员的手动验证工作。大语言模型在CASTLE数据集中小代码片段的漏洞识别方面表现出色。然而,随着代码规模的增加,其准确性下降,并出现了更多的幻觉。这些结果表明,在未来的安全解决方案中,大语言模型可能扮演关键角色,尤其是在代码完成框架中,它们可以提供实时指导以防止漏洞。数据集可从https://github.com/CASTLE-Benchmark 获取。
arXiv:2503.06343v2 宣告类型: replace-cross
摘要: 从高维观测流中提取相关信息是深度强化学习代理面临的核心挑战。演员-评论家算法为这一挑战增加了额外的复杂性,因为往往不清楚相同的观测信息对演员和评论家来说是否相关。有鉴于此,我们在此探索在针对策略算法中有效表示演员和评论家的原则。我们将研究重点放在理解演员和评论家是否受益于不同的表示,而不是共享的表示上。我们的主要发现是,当这些表示分离时,演员和评论家的表示系统地专门化于从环境中提取不同类型的信息——演员的表示往往侧重于与行动相关的信息,而评论家的表示则专门化于编码价值和动力学信息。我们进行了一项严格的实证研究,以了解不同的表示学习方法如何影响演员和评论家的专业化及其下游性能,包括样本效率和生成能力。最后,我们发现,在训练过程中,分离的评论家在探索和数据收集方面扮演了重要角色。我们的代码、训练模型和数据可以在 https://github.com/francelico/deac-rep 获得。
arXiv:2503.01148v2 通知类型: 交叉替换
摘要:本文使用R²分解方法研究了AI ETFs、AI代币和绿色市场之间的风险溢出。我们揭示了几点关键见解。首先,总体传递连接性指数(TCI)与同时期TCI高度一致,而滞后TCI显著较低。其次,AI ETFs和清洁能源作为风险传递者,而AI代币和绿色债券则作为风险接收者。第三,与AI ETFs和绿色资产相比,AI代币难以对冲,并提供有限的对冲能力。然而,多元资产组合有效降低了AI代币的投资风险。其中,最低相关性组合的表现优于最低方差和最低连接性组合。
arXiv:2502.20779v2 通知类型: replace-cross
摘要:大型语言模型(LLMs)通常会在训练过程中表现出突然的涌现行为,即在训练的某个阶段会出现新的能力。这种现象通常被称为“相变”,尚未得到充分理解。在本研究中,我们通过三个相互关联的视角对这种相变进行综合分析:LLMs与人类大脑的相似性、LLMs的内部状态以及下游任务性能。我们提出了一个关于LLMs在训练数据和架构变化时学习动态的新解释,揭示了这些模型在训练过程中普遍会经历三个相变阶段:(1)当LLMs开始遵循任务指令时,与整个大脑的对齐迅速增加,称为大脑对齐和指令跟随;(2)出乎意料的是,在下游任务精度暂时停滞的时期,LLMs与大脑脱离,称为大脑脱离和停滞;(3)随着LLMs能够解决下游任务,与大脑的重新对齐和巩固重新出现,称为大脑重新对齐和巩固。这些发现揭示了LLMs中相变的内在机制,同时也为人工智能与神经科学之间的跨学科研究开辟了新的途径。
arXiv:2502.16411v3 宣传类型: 替换-交叉
摘要:专业人士越来越多地利用人工智能(AI)来增强其能力并协助任务执行。尽管之前的研究所分别探讨了这些用途,但它们之间的潜在交互作用尚未得到充分探索。我们提出,以AI为驱动的教学("导师")和AI辅助的任务完成("工具")可以对人类能力产生联合效应,并在肺癌诊断的背景下测试了这一假设。在涉及336名医学生的一项实地实验中,我们将AI部署分别应用于培训、实际操作以及两者结合。我们的研究发现,虽然AI集成培训和AI辅助分别提高了诊断性能,但它们的结合使用则表现出最高的准确性。这些结果强调了AI在增强人类性能方面通过学习和支持的双重作用,提供了关于在仍需依赖人类专长的专业环境中部署AI的见解。
arXiv:2502.15849v2 通知类型: 替换-交叉
摘要:西方音乐是一种固有的层次系统,从细粒度的旋律到高层次的形式。为了从多个粒度层面上整体分析音乐作品,我们提出了一种名为结构时间图(STG)的统一层次元表示,以描述音乐结构的层次。对于单个曲目,STG 是一种数据结构,定义了从细粒度到更精细的音乐结构特征及其之间的时间关系的层次结构。我们使用 STG 启发一种新的方法来提取音乐语料库的代表性结构摘要,我们将这种方法形式化为一个双NP-hard组合优化问题,扩展了广义中值图问题。此方法首先应用模拟退火来开发基于图同构的两个音乐作品之间的结构距离度量。然后,结合SMT求解器的形式保证,采用嵌套模拟退火来处理结构距离,从而生成一个结构上合理的、代表性的STG中心点,涵盖来自单个曲目的多个STG。为了评估我们的方法,我们进行了实验,验证结构距离能够准确地区分不同的音乐作品,所提取的中心点能够准确地结构化描述其语料库。