arXiv:2503.19339v2 通告类型: replace-cross
摘要:物联网(IoT)系统中不断增加的安全漏洞要求提高威胁检测方法。本文提出了一种紧凑且高效的检测僵尸网络攻击的方法,该方法结合了流量模式分析、时间支持学习和针对性特征提取的综合方法。所提出的基于注意力的模型得益于混合CNN-BiLSTM架构,并在使用N-BaIoT数据集检测僵尸网络攻击时实现了99%的分类准确率,同时在各种场景中保持高精确度和召回率。所提出的模型的性能通过关键参数,如Matthews相关系数和科恩κ相关系数进一步验证。这些参数的接近理想的结果展示了所提模型在实际设置和未见过的数据中能够准确且高效地检测僵尸网络攻击的能力。所提出的模型证明是面对新兴安全挑战的IoT网络的强大防御机制。
arXiv:2503.18982v2 通知类型: 替换交叉
摘要:智能辅导系统(ITSs)收集的 learners 表现数据,如问题的回答,对于建模和预测 learners 的知识状态至关重要。然而,由于跳过或不完整的尝试导致的缺失回答造成了数据稀疏性,这使得准确评估和个性化教学变得更具挑战性。为了解决这个问题,我们提出了一种生成插补方法,使用生成对抗插补网络(GAIN)。我们的方法具有三维(3D)框架(learners、questions 和 attempts),能够灵活适应各种稀疏性水平。通过卷积神经网络增强并通过最小二乘损失函数优化,基于 GAIN 的方法将输入和输出维度对齐到 learners 维度上的 question-attempt 矩阵。使用来自 AutoTutor 成人阅读理解(ARC)、ASSISTments 和 MATHia 的数据集进行的广泛实验表明,我们的方法在不同尝试情景下的插补准确性显著优于张量分解和替代 GAN 方法。贝叶斯知识追踪(BKT)进一步通过估计学习参数:初始知识(P(L0))、学习速率(P(T))、猜测率(P(G))和滑动率(P(S)),验证了插补数据的有效性。结果表明,插补数据提高了模型拟合度,紧密反映了原始分布,并可靠地捕捉了潜在的学习行为。Kullback-Leibler(KL)发散评估证实了最小的发散性,显示插补数据有效地保留了关键的学习特征。这些发现强调了 GAIN 在 ITSs 中作为稳健的插补工具的能力,减轻了数据稀疏性并支持适应性和个性化教学,最终导致更精准和响应性的 learners 评估,并提高教育成果。
arXiv:2503.18826v2 公告类型: replace-cross
摘要:弃权分类器可以选择对难以分类的实例不提供预测。弃权机制的设计是在接受的数据集上权衡分类器的性能,同时确保最低限度的预测数量。在这种情况下,当弃权机制仅减少数据主要群体的错误时,往往会引发公平性问题,导致不同人口群体之间性能差异的增加。尽管存在许多旨在减少弃权时歧视的方法,但没有机制能够以可解释的方式做到这一点。在本文中,我们通过引入可解释和公平弃权分类器(IFAC),填补了这一空白,该算法可以根据不确定性以及不公平性来拒绝预测。通过拒绝可能不公平的预测,我们的方法减少了未拒绝数据中不同人口群体的错误率和正决策率差异。由于基于设计的可解释方法——基于规则的公平性检查和情景测试——进行的不公平性拒绝,我们创建了一个透明的过程,这可以使人类决策者审查这些不公平的预测,并为它们做出更加公正的决策。这一点尤为重要,因为最近的人工智能法规规定,任何高风险决策任务都应由专家监督,以减少歧视风险。
arXiv:2503.17417v2 宣布类型: replace-cross
摘要:多模态理解在人工智能中起着关键作用,因为它使得模型能够联合解释来自不同模态的输入。然而,传统的对比学习等方法在处理模态差异时往往面临挑战,可能导致潜在的对齐不准确。在本文中,我们提出了一种新颖的类别锚点对齐方法,该方法利用类别概率分布进行多模态表示学习。我们的方法,类别锚点对齐生成模型(CALM),将类别锚点编码为提示,用于生成和对齐每个模态的类别概率分布,从而实现更有效的对齐。此外,我们引入了一种跨模态概率变分自动编码器来建模对齐中的不确定性,增强了捕捉模态和数据变异之间更深层次关系的能力。在四个基准数据集上的广泛实验表明,我们的方法在最新的方法中显著表现更好,特别是在领域外评估中。这突显了其在多模态表示学习中出色的泛化能力。
arXiv:2503.17039v2 通告类型: replace-cross
摘要:关于评估指标和LLM-as-a-Judge模型在自动文本摘要中的研究主要集中在英语上,限制了我们对其在其他语言中的有效性理解。通过我们新的数据集BASSE(巴斯克语和西班牙语摘要评估),我们通过收集人工对2,040个抽象总结的人类评判来解决这一问题,这些总结或是手工生成的,或是由五种具有不同提示的LLM生成的。对于每个摘要,注释者根据5点李克特量表对五个标准进行了评估:连贯性、一致性、流畅性、相关性和5W1H。我们使用这些数据重新评估用于评估摘要的传统自动指标,以及在英语任务中表现出色的几种LLM-as-a-Judge模型。我们的结果表明,当前的专有法官LLM与人类评判的相关性最高,其次是特定标准的自动指标,而开源的法官LLM表现较差。我们公开发布了BASSE和我们的代码,以及包含22,525篇新闻文章及其副标题的第一个大规模巴斯克语摘要数据集。
arXiv:2503.15166v2 机器可遗忘类型: 交叉替换
摘要:机器遗忘方法已成为在大规模预训练模型中选择性概念移除方面越来越重要的技术。尽管最近的研究已经探索了在欧几里得对比视觉-语言模型中的遗忘,但在双曲空间中的概念移除效果尚未得到探索。本文通过将对齐校准应用于MERU模型,研究了在双曲对比学习中的机器遗忘,MERU模型将图像和文本嵌入双曲空间以更好地捕捉语义层次结构。通过系统的实验和消融研究,我们证明了双曲几何为概念移除提供了独特的优势,实现了近乎完美的遗忘,同时在保留的概念上取得了合理的性能,尤其是在扩展到多个概念移除时更为显著。我们的方法引入了针对双曲空间的独特组件,包括蕴含校准和范数正则化,利用双曲空间的独特属性。与欧几里得模型的对比分析揭示了遗忘动力学的基本差异,双曲遗忘重组了语义层次结构,而欧几里得方法仅断开了跨模态关联。这些发现不仅推进了机器遗忘技术,还提供了有关几何属性如何影响多模态模型中概念表示和移除的见解。源代码可在 https://github.com/alex-pv01/HAC 获取。
arXiv:2503.13208v3 更新类型: replace-cross
摘要:对大型语言模型(LLMs)进行提示调优(PT)可以显著减少可训练参数,并促进各种传统NLP任务的性能。然而,我们的研究揭示出,提示调优提供的改进有限,甚至可能会降低LLMs在复杂推理任务上的原始性能。这种现象表明,软提示可能在某些情况下对其产生积极影响,而在其他情况下则会产生负面影响,特别是在推理过程的后期阶段。为应对这些挑战,我们首先识别出软提示中信息积累的现象。通过详细的分析,我们证明这种现象通常伴随着模型深层层次中错误的信息流动模式,最终导致错误的推理结果。我们提出了一种名为动态提示污染(DPC)的新方法,以更好地利用软提示在复杂推理任务中的作用,该方法会根据软提示对推理过程的影响动态调整其影响。具体来说,DPC 包含两个阶段:动态触发(Dynamic Trigger)和动态污染(Dynamic Corruption)。首先,动态触发(Dynamic Trigger)衡量软提示的影响,确定其是否为有益或有害的。然后,动态污染(Dynamic Corruption)通过选择性地屏蔽干扰推理过程的关键令牌来减轻软提示的负面影响。我们通过在各种LLMs和推理任务上进行广泛的实验(包括GSM8K、MATH和AQuA)验证了所提出的方法。实验结果表明,DPC可以一致地增强提示调优(PT)的性能,相比传统的提示调优,准确率提高了4%-8%,突显了我们方法的有效性及其在提升LLMs复杂推理方面的潜力。
arXiv:2503.11562v2 通知类型: 交叉替换
摘要:神经音频合成(NAS)模型提供了对高质量、表达性音频生成器的互动音乐控制。尽管这些模型可以实时运行,但它们通常受到高延时的影响,使其不适合进行亲密的音乐互动。在NAS文献中,深度学习模型的架构选择对音频延时的影响尚未得到充分探索。在本文中,我们研究了通常在交互NAS模型中发现的延迟和抖动的来源。然后,我们将这种分析应用于使用Caillon等人在2021年引入的RAVE(一种用于音频波形的卷积变分自动编码器)进行音色转移的任务。最后,我们提出了一种迭代设计方法,以优化延时。这最终得出一个名为BRAVE(Bravely Realtime Audio Variational autoEncoder)的模型,该模型具有低延时,并在音高和音量复制方面表现出色,同时具有与RAVE类似的音色修改能力。我们在此种专门的推断框架中实现了该模型,用于低延时、实时推理,并展示了一个兼容乐器音频信号的原型音频插件。我们希望本文中描述的挑战和指南能够为NAS研究者提供支持,帮助他们在基础层面设计低延时推理模型,从而丰富音乐家的选择可能性。
arXiv:2503.09849v2 宣布类型: 替换-交叉
摘要:行动后评审(AARs)是一种专业的讨论方式,通过与同伴和专业人士一起分析已完成的任务来帮助操作员和团队提高任务性能。之前比较不同格式AARs的研究主要集中在人队上。然而,包括机器人队友带来了新的挑战,即理解和沟通队友意图。传统的人类队友之间的AAR可能不适合人类-机器人团队。为解决这一局限性,我们提出了一种新的训练评审(TR)工具,称为虚拟旁观者界面(VSI),以增强模拟搜索任务中人类-机器人团队的性能和情境意识(SA)。提出的VSI主要利用视觉反馈来评审被试的行为。为了检验VSI的有效性,我们利用AAR的元素进行了一次自己的TR,并设计了一个1 x 3的被试间实验,其中实验条件包括:(1)使用VSI的TR;(2)屏幕录制;以及(3)无技术手段(仅口头描述)。我们实验的结果表明,VSI并没有显著优于其他条件下的团队性能。然而,使用VSI的TR在被试的SA改进方面超过了其他条件。
arXiv:2503.08643v2 宣告类型:replace-cross
摘要:维度 curse 是统计概率模型中不可避免的挑战,然而扩散模型似乎克服了这一限制,实现了在高维数据生成方面的令人印象深刻的成果。扩散模型假设它们能够学习潜在概率分布的统计特性,从而能够从该分布中采样以生成真实样本。但这真的就是这样运作的吗?为了解决这个问题,本文详细分析了扩散模型的目标函数和推理方法,得出了几个重要结论,帮助回答上述问题:1)在高维度稀疏情况下,目标函数拟合的目标从多个样本的加权总和退化为单一样本。2)主流的推理方法都可以在一个简单的统一框架中表示,无需使用马尔可夫链和SDE等统计概念,但与退化的目标函数保持一致。3)根据这个简单框架,可以发现更高效的推理方法。