arXiv:2505.04318v1 型别: cross
摘要: 随着深度学习模型的应用超出了人类验证的能力范围,需要元算法来确保模型推理的可靠性。概念漂移检测专注于识别统计变化,但在监控可能遇到具有与训练数据分布特征不同的推理数据的神经网络时,这一领域亟待利用。考虑到各种模型架构、应用和数据集的多样性,概念漂移检测算法需要适应不同的推理场景。在本文中,我们介绍了一种$\chi^2$拟合良好性假设检验的应用,作为应用于多层感知器、卷积神经网络和用于机器视觉的变换器的概念漂移检测元算法,它们在暴露于推理过程中模拟的概念漂移时的应用。通过这种方式,我们展示了如何在不直接检查推理输出的情况下检测由于概念漂移导致的意外准确度下降。我们的方法通过确保模型在各种条件下持续接受可靠性评估来增强安全性。
arXiv:2505.04308v1 安全类型: 交叉
摘要:网站信息安全在数字时代已成为一个关键关切。本文探讨了网站信息安全的发展演变,考察其历史发展、当前实践以及未来方向。从20世纪60年代到80年代的早期开始,ARPANET、TCP/IP、公钥密码学和首个抗病毒程序的发展奠定了现代网络安全的基础。20世纪90年代是转型时代,互联网的商业化和基于Web的服务的出现推动了这一进程。随着互联网的扩大,网络威胁的范围和复杂性也增加,这导致了诸如安全套接层(SSL)协议、密码保护和防火墙等安全技术的进步。当前的网站信息安全实践包括多层方法,包括加密、安全编码实践、定期安全审核和用户教育。网站信息安全的未来预计将受到新兴技术(如人工智能、区块链和量子计算)以及国际协作和标准化努力日益重要的影响。随着网络威胁不断演变,网站信息安全领域的持续研究和创新将是保护敏感信息和维护数字世界信任的关键。
arXiv:2505.04300v1 跨类别公告类型
摘要:生物启发的神经网络通常利用通路注释来在生物医学应用中提高性能。我们假设通路整合的好处并非来源于其生物学相关性,而是来自于它引入的稀疏性。我们对所有相关基于通路的神经网络模型进行了全面分析,对每项研究的贡献进行了批判性评估。在此基础上,我们整理出了一部分代码公开的方法。在对生物学启发的最新深度学习模型和它们的随机化版本进行比较后,我们发现,在不同指标和数据集上,基于随机信息的模型表现与生物学启发的模型表现相当。值得注意的是,在分析的15种模型中有3种,随机化版本甚至优于其生物学启发的版本。此外,通路启发的模型在可解释性方面没有明显的优越性,因为随机化模型仍然能够识别出与疾病相关的生物标志物,尽管缺乏明确的通路信息。我们的研究结果表明,当前的方法可能过于依赖或未能充分探索通路注释。因此,我们提出了一种方法,该方法可以应用于不同的领域,并且可以作为系统比较新型通路启发模型与其随机化版本的稳健基准。这种方法使研究人员能够严格确定观察到的性能提升是否归因于生物学洞见。
arXiv:2505.04284v1 交叉公告类型
摘要:在癌症治疗领域,使用患者报告的处方药物不良药物事件(ADEs)进行总结对于提升药物警戒实践并改善与药物相关决策具有重要意义。随着药物警戒数据量和复杂性的增加,现有研究在该领域主要侧重于一般的疾病,而未专门针对癌症。本文介绍了针对同一药物用于癌症治疗时多名患者报告的不良药物事件进行分组总结的任务。为应对癌症药物警戒资源有限的挑战,我们提出了多标签癌症不良药物反应和总结(MCADRS)数据集。此数据集包括详细的药物警戒帖子,内容涉及患者对药物疗效和不良反应的担忧,并附有提取的药物名称、不良药物事件、严重程度和反应的严重性标签,以及每种药物的ADE总结。此外,我们还提出了癌症不良药物事件的分组和自动生成摘要(GASCADE)框架,这是一个结合了大型语言模型(LLMs)的信息提取能力和解码器-编码器T5模型的摘要能力的新流程。我们的工作是首次利用对齐技术,包括使用合成数据集的先进算法如直接偏好优化等,应用于解码器-编码器模型的总结任务。通过广泛的实验,我们证明了GASCADE在各种度量标准上的优越性能,并通过自动评估和人工评估进行了验证。这种多任务方法增强了与药物相关的决策制定,深化了对患者担忧的理解,铺平了个性化和响应式癌症护理进步的道路。本文使用的代码和数据集已经公开。
arXiv:2505.04278v1 通知类型: cross
摘要: 由于底层物理特性和外部影响的动力学特性,时间序列的不确定性往往会随时间变化。然而,现有的去噪扩散概率模型(DDPMs)往往无法捕捉到这种非平稳特性,受限于它们从加性噪声模型(ANM)中衍生的恒定方差假设。在本文中,我们创新地利用位置-尺度噪声模型(LSNM)来放宽ANM中恒定不确定性的假设。基于LSNM,我们设计了一种名为Non-stationary Diffusion(NsDiff)的扩散为基础的概率预测框架,该框架能够建模不确定性变化的模式。具体地说,NsDiff结合了一个基于去噪扩散的条件生成模型和一个预训练的条件均值和方差估计器,从而实现自适应端点分布建模。此外,我们提出了一种意识不确定性噪声时间表,该时间表能够动态调整噪声水平,以准确反映每一步的数据不确定性,并将时间变化的方差整合到扩散过程中。在九个真实世界和合成数据集上进行的广泛实验表明,NsDiff在性能上优于现有方法。代码可在 https://github.com/wwy155/NsDiff 获取。
arXiv:2505.04270v1 事态描述类型: 交叉
摘要:主观视角视频语义接地是 embodiment 智能应用中的关键任务,与客观视角视频时刻定位不同。现有方法主要关注主观视角视频和客观视角视频之间的分布差异,但往往忽视了主观视角视频的关键特征以及文本查询中强调的细粒度信息。为了应对这些局限性,我们提出了 OSGNet,一种用于主观视角视频的对象子弹时间增强语义接地网络。具体而言,我们从视频中提取对象信息,以丰富视频表示,特别是对于文本查询中强调但视频特征未能直接捕捉到的对象。此外,我们分析了主观视角视频固有的高频镜头移动,利用这些特征提取佩戴者的注意力信息,从而增强模型的模态对齐能力。在三个数据集上的实验结果显示,OSGNet 达到了最先进的性能,验证了我们方法的有效性。我们的代码可以在 https://github.com/Yisen-Feng/OSGNet 找到。
arXiv:2505.04265v1 交叉类型:
摘要:随着网络战争日益复杂,需要提出新的解决方案。在这方面,大型语言模型(LLMs)已 emerged 作为高度有前景的工具,用于防守性和进攻性的网络安全相关策略。尽管现有文献主要关注 LLMs 的防守性应用,但在其进攻性利用方面,报告验证(VA 报告验证)方面几乎没有报道。因此,本文试图通过探讨 LLMs 在自动化和改进 VA 报告验证过程中的能力来填补这一空白。通过对相关文献的深入回顾,本文提议了一种新的方法,用于在自动化分析以及 VA 报告验证过程中利用 LLMs,这有可能减少误报的数量,并且总体上提高效率。这些结果对于通过自动化改进来自 VA 的报告验证以提高准确性、减少人力投入和安全姿态具有前景。本文的贡献为进一步证实了 LLM 在进攻性和防守性方面的应用能力,从而有助于制定更合适的网络安全策略和工具。
arXiv:2505.04260v1 类别: cross
摘要: 随着大型语言模型 (LLMs) 在充当个人AI助手方面的功能能力提升,输出独特且个性化响应的能力变得至关重要,这种响应能够与用户柔和的偏好相匹配,从而提高用户满意度和留存率。然而,未经训练的普通用户在编写提示的能力上很弱,并且经常难以向AI助手表达其隐含的偏好。为解决这一问题,我们利用激活引导,在推理过程中引导LLMs与可解释的偏好维度相一致。与需要更长用户历史的记忆基于个性化方法不同,激活引导极其轻量级,并且可以通过一个线性的强度因子由用户轻松控制。我们将激活引导嵌入到三种不同的交互式聊天机器人界面中,并进行了一项针对14名参与者的重复被试研究,以调查最终用户如何个性化他们的对话。研究结果展示了基于偏好引导的有效性,证明了其在与隐藏的用户偏好对齐实际对话方面的效果,并突显了不同的控制、易用性和透明度价值观如何引导用户偏好不同的界面。
arXiv:2505.04251v1 通告类型: cross
摘要: 多智能体自主系统(MAS)在跨越多个领域的挑战比单一的自主智能体处理得更好。这一点在软件工程(SE)领域也同样适用。当前SE领域关于MAS的最先进研究集中在将LLM整合到自主智能体的核心,以创建基于LLM的多智能体自主系统(LMA)。然而,将LMA系统引入SE带来了诸多挑战。其中一个主要挑战是在可信赖的方式下,如何战略性地分配任务给人类和LMA系统。为了解决这一挑战,本文提出了一种基于RACI的框架,并提供了实施指南和该框架的一个示例实现。所提出的框架可以促进高效协作,确保责任,同时减轻与LLM驱动自动化相关的潜在风险,同时符合可信赖AI的准则。本文还阐述了未来的工作步骤,即计划的实证验证方法。
arXiv:2505.04223v1 宣布类型: cross
摘要: 联邦学习 (FL) 允许分布式客户端在保持数据本地性的前提下协作进行模型训练。虽然 FedAvg 为全局模型平均开创了同步轮次,但速度较慢的设备可能会延迟集体进度。异步 FL(例如 FedAsync)通过不断集成客户端更新来解决延迟问题,但简单的实现方式可能会因非IID数据和过时的贡献而导致客户端漂移。一些基于区块链的 FL 方法(例如 BRAIN)采用稳健的权重或评分来抵御恶意或不对齐的提议。然而,在严重数据异质性和高过时性的情况下,性能下降仍然可能发生,并且由于其去汇总架构,同步开销已成为一个新问题。
我们提出了一种新的异步 FL 方法 Fast-and-Reliable AI Network (FRAIN),通过结合两个关键想法来缓解这些限制。首先,我们的 FastSync 策略消除了重放过去模型版本的需要,使新加入者和频繁参与的人员能够高效地近似全局模型。其次,我们在合并参数时采用球面线性插值 (SLERP),保持模型的方向,从而减轻来自发散本地训练的破坏性干涉。
实验结果表明,使用 CNN 图像分类模型和基于 Transformer 的语言模型,FRAIN 在不稳定环境中比 FedAvg、FedAsync 和 BRAIN 实现了更稳定和更可靠的收敛,尤其是在非IID数据分布、网络延迟需要频繁重新同步以及存在恶意节点的情况下。