arXiv:2505.03796v1 宣布类型:交叉
摘要:内部威胁对组织安全构成重大挑战,常常能够规避传统基于规则的检测系统,因为它们具有微妙性和情境化的特点。本文介绍了一种基于AI的内部风险管理系统(IRM),该系统结合了行为分析、动态风险评分和实时策略执行,以高精度和适应性检测和缓解内部威胁。我们引入了一种混合评分机制——从静态PRISM模型过渡到利用专家标注用户活动数据训练的自编码神经网络的适应性AI模型。通过迭代反馈循环和持续学习,该系统将假阳性率降低59%,并将真正阳性检测率提高30%,显示出检测精度的显著提升。此外,该平台处理能力强大,每天可以处理多达1000万条日志事件,查询延迟低于300毫秒,并支持政策违反时的自动执行动作,减少了手动干预。IRM系统的部署使事件响应时间减少了47%,突显了其操作影响。未来增强包括集成可解释的AI、联邦学习、基于图的异常检测以及与零信任原则对齐,以进一步提高其适应性、透明度和合规性。这项工作建立了一个可扩展且前瞻性的框架,用于缓解在混合和现场部署环境中不断出现的内部风险。
arXiv:2505.03795v1 类型: cross
摘要:人类网络极大地影响着包括财富和健康不平等、贫困和欺凌在内的重要的社会成果。因此,理解人类网络对于学习如何促进有利的社会成果至关重要。为更好地理解人类网络,我们比较了几种方法在称为初中游戏(JHG)的战略网络游戏中学习人类行为模型。这些建模方法在参数化人类行为的假设(行为 vs. 社区意识行为)以及建模的统计时刻(均值 vs. 分布)方面存在差异。结果显示,表现最佳的方法是建模人群的分布而不是均值,并假设人类使用社区意识行为而不是匹配行为。当应用于小社会(6-11 人)时,这种学习模型被称为 hCAB,与人类群体的动态变化高度一致(有少许差异)。此外,一项用户研究显示,人类参与者无法区分 hCAB 代理与其他人类,从而表明 hCAB 在这种战略网络游戏中的个体行为可能类似人类行为。
arXiv:2505.03793v1 Announce Type: cross
摘要:开源大型语言模型(LLMs)和多样化的下游任务的增长使得在计算资源受限的情况下,有效选择模型变得必要。尽管在LLM选择方面最近取得了进展,但一个基本的研究问题仍然处于萌芽状态:我们如何在微调过程中建模LLM的动力学行为,从而增强我们对其在各种下游任务中泛化性能的理解?在本文中,我们提出了一种新的理论框架,为评估LLMs的泛化能力提供了一个适当的视角,从而能够为下游应用高效准确地选择LLMs。具体来说,我们首先推导了一个基于Hessian的PAC-Bayes泛化边界,揭示了LLMs的微调动力学,然后引入LENSLLM,这是一种基于神经切线核(NTK)的修正缩放模型,能够在保持计算效率的同时提供准确的跨任务性能预测。在三个大规模基准上的广泛实验证明,我们的模型在LLM选择中的准确率达到91.1%,计算成本降低88.5%,超过了5种现有最先进的方法。我们已在GitHub链接中开源了我们提出的LENSLLM模型及相应结果:https://github.com/Susan571/LENSLLM.git。
arXiv:2505.03792v1 声明类型: cross
摘要:使用强化学习(RL)在线微调视觉语言模型(VLM)代理展示了在动态环境中为代理提供多步骤、目标导向能力的潜力。然而,其开放式的文本动作空间和动作生成的非端到端性质给RL中的有效在线探索带来了重大挑战,例如探索空间的爆炸性增长。我们提出了一种新的在线微调方法——反事实软强化学习(CoSo),更适合VLM代理的文本输出空间。与先前方法将所有标记分配均匀的不确定性相比,CoSo 利用反事实推理来动态评估单个标记对后处理动作因果影响。通过优先探索对动作至关重要的标记,同时减少语义冗余或低影响标记的影响,CoSo 能够实现更精确和高效的在线展开过程。我们提供了理论分析,证明了CoSo 的收敛性和策略改进保证,并进行了广泛的实证评估支持CoSo的有效性。我们的结果涵盖了各种代理任务,包括Android设备控制、卡片游戏和具身AI,突显了其显著提高探索效率和持续性能提升的能力。代码可在 https://github.com/langfengQ/CoSo 获取。
arXiv:2505.03791v1 类型: cross
摘要: 布尔神经网络提供了与实值模型相比硬件效率更高的替代方案。虽然量化很常见,但纯粹布尔训练仍然未被充分探索。我们提出了一种基于我们选择的单一特定门的实用方法,该门直接在不涉及数值运算的布尔代数中操作。初步实验证实了其可行性。
arXiv:2505.03790v1 交叉公告类型
摘要:随着人工智能的发展,大量通过深度学习与技术结合的应用已经得以实现。为了达到最佳性能,深度神经网络通常需要大量的数据进行训练。尽管数据增强技术的进步促进了大规模数据集的获取,但大多数数据集中在图像和语音等领域。不过,时间序列数据的增强却相对较少受到关注。为解决这一问题并生成大量的时间序列数据,我们提出了一种简单而有效的方法,结合了扩散模型和Transformer模型。通过利用调整过的扩散去噪模型生成大量初始时间步数据动作,然后使用Transformer模型预测后续动作,并引入加权损失函数以实现收敛,该方法显示了其有效性。通过使用应用增强数据后的模型性能改进作为基准,并将结果与未使用数据增强或使用传统数据增强方法的结果进行比较,该方法展示了生成高质量增强数据的能力。
arXiv:2505.03788v1 类型: cross
摘要: 我们提出了一种针对多模态大型语言模型 (LLMs) 的不确定性量化 (UQ) 校准的新方法。现有的最先进的 UQ 方法依赖于在不同设置下对输入查询生成的多个响应之间的一致性。然而,这些方法在 LLM 一致错误的情况下往往会报告更高的置信度。这导致了与准确性相关的置信度校准不佳。为了解决这个问题,我们不仅利用自洽性还利用跨模态一致性来改进多模态模型的校准。具体来说,我们将文本响应与视觉输入联系起来。基底模型的置信度被用来校准总体置信度。由于使用基底模型会在管道中引入自己的不确定性,我们应用了温度缩放——一种广泛接受的参数校准技术——来校准基底模型对生成响应准确性置信度的校准。我们在包括医疗问答 (Slake) 和视觉问答 (VQAv2) 等多个多模态任务中评估了所提出的方法,考虑了诸如 LLaVA-Med 和 LLaVA 等多模态模型。实验表明,所提出的框架在这两个任务上实现了显著改进的校准。
arXiv:2505.03787v1 Announce Type: cross
摘要:心律失常是导致危及生命的心脏事件的主要原因,凸显了准确及时检测的迫切需求。心电图(ECG)仍然是心律失常诊断的临床金标准;然而,手动解释耗时long,依赖临床专业知识,并且容易出错。尽管深度学习促进了自动ECG分析的进步,但许多现有模型忽略了信号固有的时间和形态特征,缺乏可解释性,并且计算强度大——这些都阻碍了它们在资源受限平台上的部署。在本文中,我们提出了两个新颖的轻量级一维卷积神经网络模型,ArrhythmiNet V1和V2,旨在高效地在边缘设备上进行实时心律失常分类。受MobileNet的深度可分离卷积设计的启发,这两个模型分别保持了302.18 KB和157.76 KB的内存占用,同时在MIT-BIH心律失常数据集上的分类准确率分别为0.99(V1)和0.98(V2),涵盖五个类别:正常窦性心律、左束支阻滞、右束支阻滞、房性期前收缩和室性期前收缩。为了确保临床透明度和相关性,我们整合了Shapley加性解释和梯度加权分类激活映射,使模型具有局部和全局解释性。这些技术强调了QRS复合体和T波等生理上有意义的模式,这些模式对模型的预测有贡献。我们还讨论了性能与效率之间的权衡,并解决了与数据集多样性和一般化的当前限制问题。总的来说,我们的研究结果表明,在实际、可穿戴和嵌入式ECG监测系统中结合可解释性、预测准确性和计算效率是可行的。
arXiv:2505.03780v1 平台类型: 横跨
摘要:随着大语言模型(LLM)变得越来越复杂,实现最先进的性能需要在算法、软件和硬件之间进行紧密的协同设计。今天对单一主导平台的依赖性限制了迁移性,造成了供应商锁定,并提高了新AI硬件的壁垒。在本文中,我们提出将即时编译(JIT)与内核参数自调优相结合,以在无需代码更改的情况下实现可迁移、最先进的性能LLM执行。我们以广泛使用的性能关键内核——闪存注意机制为例,展示了这种方法探索了高达15倍更多的内核参数配置,在多个维度上产生了显著更多的多样代码,并且在某些情况下甚至比优化的供应商实现高出230%的性能,同时将内核代码量减少了70倍,消除了手动代码优化的需求。我们的结果突显了自调优作为解锁面向GPU供应商的模型迁移性的有前途的方法。
arXiv:2505.03769v1 交叉类型公告
摘要:在当今的跨平台社交媒体环境中,理解影响多模态内容(尤其是搭配视觉的文本内容)参与度的因素仍然十分复杂。本研究探讨了如何修改 Reddit 发帖标题以适应 YouTube 视频标题如何影响用户参与度。首先,我们构建并分析了一个大规模的 Reddit 发帖共享 YouTube 视频的数据集,结果显示 21% 的发帖标题进行了少量修改。统计分析表明,标题修改能显著提高参与度。其次,我们设计了一个受控的多阶段实验,以严格隔离文本变化的效果,消除视频受欢迎程度、发布时间和社区规范等因素的干扰。全面的统计测试显示,有效的标题修改通常具有情感共鸣、词汇丰富性和与特定社区规范的契合度。最后,使用微调的 BERT 分类器进行成对排名预测实验,准确率达到 74%,显著优于接近随机的基线,包括 GPT-4o。这些结果验证了我们的受控数据集有效地最小化了混杂因素的影响,使高级模型能够学习并展示文本特征对参与度的影响。通过结合定量严谨性和定性见解,本研究揭示了参与度动态,并提供了一个稳健的框架,以指导未来跨平台多模态内容策略。