arXiv:2504.01128v1 交叉公告类型: cross
摘要: 环流是强、局部和狭窄的水流,它们向外流入海洋,导致全球各地海滩相关的大量伤害和死亡。由于环流的非规范化特性和缺乏标注数据,准确识别环流仍然具有挑战性,往往需要专家知识。为了解决这些问题,我们提出了 RipVIS,一个专门为环流分割设计的大规模视频实例分割基准数据集。RipVIS 的规模比以往的数据集大一个数量级,包含了 184 个视频(212,328 帧),其中 150 个视频(163,528 帧)含有环流,这些视频来自各种来源,包括无人机、移动电话和固定海滩摄像头。我们的数据集涵盖了多种视觉环境,如海浪破碎模式、淤泥流动和水色变化,遍布多个全球地点,包括美国、墨西哥、危地马拉、葡萄牙、意大利、希腊、罗马尼亚、斯里兰卡、澳大利亚和新西兰。绝大多数视频以 5 帧每秒的速度进行标注,以确保在动态场景下确保准确性,并补充了 34 个不含环流的视频(48,800 帧)。我们使用 Mask R-CNN、Cascade Mask R-CNN、SparseInst 和 YOLO11 进行全面实验,这些模型被微调以进行环流分割任务。结果用多个指标报告,特别关注 F2 分数以优先考虑召回并减少假阴性。为了提高分割性能,我们引入了一种基于时间置信度聚合 (TCA) 的新颖后处理步骤。RipVIS 旨在为环流分割设定新的标准,有助于创建更安全的海滩环境。我们提供了一个基准网站,分享数据、模型和结果给研究社区,鼓励持续合作和未来贡献,网址为 https://ripvis.ai。
arXiv:2504.01122v1 Announce Type: cross
摘要:节点嵌入是指生成图中节点的低维向量表示以保留节点特定属性的技术。该领域的一个关键挑战是开发可扩展的方法,以保留适合给定下游应用任务所需结构模式的结构性属性。虽然大多数现有方法专注于保留节点邻近性,但那些确实保留结构性属性的方法往往缺乏灵活性,无法保留下游应用任务所需的各种类型结构模式。本文介绍了一种名为ffstruc2vec的可扩展深度学习框架,用于学习能够保留结构性身份的节点嵌入向量。其扁平、高效的架构允许在捕捉多样类型的结构模式时具有高度灵活性,从而使其对各种下游应用任务具有广泛的适应性。该提出的框架在多元无监督和监督任务中显著优于现有方法。此外,ffstruc2vec还通过量化个体结构模式对任务结果的影响,增强了可解释性,提供了可操作的解释。据我们所知,现有的任何框架都无法结合这种灵活性、可扩展性和结构性可解释性,突显了其独特的功能。
arXiv:2504.01094v1 交叉公告类型
摘要:大型音频语言模型(LALMs)显著提升了音频理解能力,但同时也引入了关键的安全风险,特别是在音频逃逸攻击方面。尽管先前的研究主要集中在英语攻击,但我们揭示了更为严重的漏洞:对抗性的多语言和多口音音频逃逸攻击,其中语言和声学变异极大地提高了攻击的成功率。在本文中,我们介绍了Multi-AudioJail,这是一个用于利用这些漏洞的新颖系统框架,具体包括:(1) 一个包含对抗性扰动多语言/多口音音频逃逸攻击提示的新型数据集,以及(2) 一个多级评估管道,揭示了声学扰动(如回声、回声效果和耳语效果)如何与跨语言的音素交互作用,导致逃逸成功率(JSRs)最高可提升57.25个百分点(例如,对MERaLiON的肯尼亚口音攻击)。至关重要的是,我们的研究还揭示了多模态LLMs比单一模态系统更脆弱:攻击者只需利用最薄弱的环节(如非英语音频输入)就能破坏整个模型。我们通过多语言音频攻击的成功率比文本攻击高出3.1倍的实验证明了这一点。我们计划发布我们的数据集,以推动跨模态防御的研究,并敦促社区在LALMs演进时解决这一不断扩大的攻击面。
arXiv:2504.01093v1 类别: cross
摘要: 我们提出了一种使用傅里叶特征嵌入在物理感知神经网络(PINNs)中严格约束诺依曼边界条件的新方法。诺依曼边界条件被用来描述各种应用中的关键过程,但在PINNs中严格约束诺依曼边界条件比狄利克雷条件更具挑战性。我们的方法采用特定的傅里叶特征嵌入,直接将诺依曼边界条件纳入神经网络架构中,而不是通过学习来获得。嵌入可以通过高频模式自然扩展,以更好地捕捉高频现象。通过在扩散问题上的实验,我们展示了该方法的有效性,特别是在多尺度和高频场景中,我们的方法优于现有的严格约束方法和经典PINNs。
arXiv:2504.01089v1 宣告类型:交叉
摘要:仅在美国,每年因家庭事故导致的死亡人数超过128,000人。我们的研究旨在使家用机器人能够在家中应对紧急情况,预防受伤和死亡。我们基于ThreeDWorld模拟器引入了一个新的家庭紧急事件数据集。在我们的数据集中,每个场景始于一种可能或不可能是紧急情况的瞬时或周期性声音。代理必须利用之前的观察、模拟器中的音频信号和图像,在多房间的家庭场景中导航,以确定是否存在紧急情况。
除我们的新数据集外,我们还介绍了一种模块化方法,用于定位和识别潜在的家庭紧急事件。我们方法的基础是一种新颖的概率动态场景图(P-DSG),其中我们的一项关键见解是,表示代理的图节点可以用概率边表示。当通过贝叶斯推断对这条边进行精平时,可以实现场景中代理的有效、高效的定位。我们还利用多模态视觉-语言模型(VLMs)作为我们方法的一个组件,确定对象属性(例如可燃性)并识别紧急情况。我们展示了我们的方法在消费级机器人上完成我们任务的现实世界版本的演示,证明了我们任务和方法的可迁移性。我们的数据集将在论文发表后对公众发布。
arXiv:2504.01053v1 标题类型: cross
摘要:本文提出了一种新的基于知识库(KB)的语义通信框架,用于图像传输。在接收端,通过使用对比学习预训练(CLIP)模型从图像中提取语义嵌入来构建一个基于 Facebook AI 相似搜索(FAISS)的向量数据库。在传输过程中,发送端首先使用 CLIP 模型提取一个 512 维的语义特征,然后使用轻量级神经网络进行压缩后传输。接收端接收到信号后,将特征重建回 512 维,并从知识库中进行相似性匹配以检索最具语义相似性的图像。语义传输的成功是由传输图像和检索到的图像之间的类别一致性来确定的,而不是通过传统的峰值信噪比(PSNR)等传统指标。该提议的系统优先考虑语义准确性,为语义感知通信系统提供了一个新的评估范式。CIFAR100 的实验验证证明了该框架在实现语义图像传输方面的有效性。
arXiv:2504.01047v1 Announce Type: cross
摘要:本研究使用机器学习算法从随机选取的电影图像中识别演员并提取演员年龄。使用来自阿拉伯电影的图像包括诸如不均匀光照、演员的多种不同姿态以及演员或一组演员周围的多种元素等挑战。此外,化妆、假发、胡须、佩戴不同配件和服饰使得系统难以识别相同演员的性格。阿拉伯演员数据集-AAD包含574张图像,来自各种电影,包括黑白和彩色组合。这些图像展示了完整的场景或场景片段。使用了多种模型进行特征提取,并在分类和预测阶段使用了多种机器学习算法,以确定在处理此类图像类型时最有效的算法。研究表明,在训练阶段,逻辑回归模型在AUC、精确率、CA和F1得分方面的表现分别为99%、86%、85.5%和84.2%,表现最佳。本研究的结果可用于提高面部识别技术的精确性和可靠性,适用于电影搜索服务、电影推荐算法和电影类型分类等领域。
arXiv:2504.01043v1 宣告类型: 交叉
摘要:临床医生在使用医疗机器学习系统时有道德义务向患者披露这一做法,如果未能披露,则会导致临床医生应对此承担道德上的过失。姑且称之为“披露论点”。在伦理学文献中,可以给出或已经给出了支持披露论点的四种主要论据:基于风险的论据、基于权利的论据、基于重要性的论据和基于自主性的论据。在本文中,我论证这四种论据都缺乏说服力,因此披露论点应该被拒绝。我建议,要求披露可能会通过为利益相关者提供一种方式来避免因这些系统不适当的应用或使用而导致的伤害的责任,从而进一步危害患者。
arXiv:2504.01039v1 宣传类型:跨领域
摘要:这篇简短的文章提出了一个新的民主模型的愿景,该模型得益于最近在代理人工智能技术方面的进步。因此,它以清晰简洁地勾勒出该模型的图景作为开头,并在之后讨论了相关的提议、研究方向以及可行性和安全性的问题。文章结尾对这一想法的及时性和乐观态度进行了总结。所提出的模型是为每位公民分配一个AI代理人的计划,使其能够作为他们的政治代表,从而恢复直接民主。文章探讨了该模型与现有研究的关系、潜在的挫折和可行性,并主张进一步发展该模型。
arXiv:2504.01034v1 宣布类型: cross
摘要: 机器人会投票吗?机器会代替我们做决定吗?不,至少现在还没有,但这种情况有可能发生。人工智能(AI)对民主的影响是一个复杂的问题,需要进行深入的研究和慎重的监管。在最重要的层面,即选举过程层面,指出选举本身并不由AI决定,但受到了其多种应用的巨大影响。由AI应用驱动的新类型的在线竞选活动正在取代传统的竞选活动。操控选民和间接影响选举结果的潜在风险不容忽视。当然,传统政治竞选活动中也存在选民操纵的情况,区别在于数字操纵往往是在我们不知情的情况下进行的,例如通过监测我们在社交媒体上的行为。然而,我们不应忽视AI在提升民主机构方面的积极影响,它提供了一个参与决策的平台。在这个背景下,首先,我们探讨了AI工具使用对民主过程的潜在威胁。其次,我们考虑了利用AI加强民主过程的可能性,以及通过AI提供的可能性实现AI本身的民主化。最后,讨论了AI对代表制度的影响。论文以建议和结论作为结尾。