arXiv 论文列表

作者: Bappa Muktar, Vincent Fono, Adama Nouboukpo

arXiv:2505.08810v1 Announce Type: cross 摘要：车辆 Ad Hoc 网络（VANETs）在智能交通系统（ITS）中发挥了关键作用，特别是在允许紧急车辆进行实时通信方面。然而，分布式拒绝服务（DDoS）攻击可能会严重干扰安全关键的通信信道，从而损害其可靠性。本研究提出了一种 robust 和可扩展的框架，用于检测基于高速公路的 VANET 环境中的 DDoS 攻击。通过利用 Network Simulator 3（NS-3）结合 Simulation of Urban Mobility（SUMO）以及通过 OpenStreetMap（OSM）从德国 A81 高速公路提取的真实世界移动轨迹构建了一个合成数据集。模拟了三种交通类别：DDoS、VoIP 和基于 TCP 的视频流（VideoTCP）。数据预处理管道包括归一化、信噪比（SNR）特征工程、缺失值插补以及使用合成少数类过采样技术（SMOTE）进行类别平衡。使用 SHapley Additive exPlanations（SHAP）评估了特征重要性。对 11 种分类器进行了基准测试，其中包括 XGBoost（XGB）、CatBoost（CB）、AdaBoost（AB）、GradientBoosting（GB）以及人工神经网络（ANN）。XGB 和 CB 达到了最佳性能，各自获得了 F1 分数为 96%。这些结果显示了所提议框架的稳健性，并且它具有在 VANET 中实时部署以保护关键紧急通信的潜力。

发布时间: 5/15/2025

查看原文

MixBridge：通过薛定谔桥混合进行的异构图像到图像后门攻击

作者: Shixi Qin, Zhiyong Yang, Shilong Bao, Shi Wang, Qianqian Xu, Qingming Huang

arXiv:2505.08809v1 通知类型: 交叉摘要: 本文关注在针对复杂和任意输入分布设计的桥基扩散模型中植入多个异质后门触发器的问题。现有的后门形式主要针对单一攻击场景，并且仅限于高斯噪声输入模型。为了填补这一空白，我们提出了一个新颖的扩散薛定谔桥（DSB）框架MixBridge，以应对任意输入分布（包括I2I任务作为特例）。除了这一特性之外，我们还证明了可以通过直接使用中毒图像对进行训练将后门触发器注入MixBridge中。这消除了之前研究中所必需的对随机微分方程进行繁琐修改的需求，提供了一个灵活的工具来研究桥模型中的后门行为。然而，一个关键问题出现了：单个DSB模型是否能够训练多个后门触发器？遗憾的是，我们的理论表明，在尝试这样做时，模型最终会跟随良性分布和受后门影响的分布的几何平均值，导致后门任务之间出现性能冲突。为了解决这一问题，我们提出了一个分割与合并策略来混合不同的桥梁，其中模型独立地针对每个特定目标进行预训练（分割），然后整合到一个统一的模型中（合并）。此外，还设计了一个权重重新分配方案（WRS）以增强MixBridge的隐蔽性。针对不同生成任务的实证研究表明了MixBridge的有效性。

发布时间: 5/15/2025

查看原文

SparseMeXT 解锁稀疏表示在高精度地图构建中的潜力

作者: Anqing Jiang, Jinhao Chai, Yu Gao, Yiru Wang, Yuwen Heng, Zhigang Sun, Hao Sun, Zezhong Zhao, Li Sun, Jian Zhou, Lijuan Zhu, Shugong Xu, Hao Zhao

arXiv:2505.08808v1 类型: cross 摘要：近年来，在高分辨率HD地图构建方面的进展显示了密集表示的有效性，这依赖于计算密集型的鸟瞰图BEV特征。虽然稀疏表示作为一种更有效的替代方案，通过避免密集BEV处理提供了更多的效率，但现有方法往往落后于定制化设计的缺乏。这些限制阻碍了稀疏表示在在线HD地图构建中的竞争力。在此工作中，我们系统地回顾并改进了稀疏表示技术，识别出关键的架构和算法改进，以填补与密集方法之间的差距，并最终超越它们。我们介绍了一种优化用于稀疏地图特征提取的专用网络架构，一种稀疏-密集分割辅助任务，更好地利用了几何和语义线索，以及一个由物理先验指导的去噪模块，以细化预测。通过这些改进，我们的方法在nuScenes数据集上实现了最先进的性能，显著推动了HD地图构建和中心线检测。具体而言，SparseMeXt-Tiny在每秒32帧下达到了55.5%的平均精度mAP，而SparseMeXt-Base达到了65.2%的mAP。进一步扩大骨干和解码器，SparseMeXt-Large在超过20帧每秒下达到了68.9%的mAP，为HD地图构建中稀疏表示设定了新的基准。这些结果强调了稀疏方法的未开发潜力，挑战了对密集表示的常规依赖，并重新定义了该领域的效率-性能权衡。

发布时间: 5/15/2025

查看原文

代理互联网的安全性：攻击与对策

作者: Yuntao Wang, Yanghe Pan, Shaolong Guo, Zhou Su

arXiv:2505.08807v1 宣布类型: cross 摘要：随着大型语言模型和视觉语言模型的兴起，AI代理已经进化成为自主的、交互式的系统，能够进行感知、推理和决策。随着它们在虚拟和物理领域中的普及，代理互联网（IoA）已经成为一种关键的基础设施，用于在异构代理之间实现可扩展和安全的协调。本文综述了IoA系统中的安全和隐私状况。我们首先概述了IoA架构及其与传统网络相比的独特脆弱性，重点关注四个关键方面：身份认证威胁、跨代理信任问题、具身安全和隐私风险。然后，我们回顾了现有和新兴的防御机制，并指出持续存在的挑战。最后，我们确定了开放的研究方向，以促进安全和隐私保护的IoA生态系统的开发。

发布时间: 5/15/2025

查看原文

多模态合成数据训练与模型崩溃：来自VLMs和扩散模型的见解

作者: Zizhao Hu, Mohammad Rostami, Jesse Thomason

arXiv:2505.08803v1 公告类型：交叉摘要：近期的研究突出了生成模型崩溃的风险，在持续使用自我生成的数据进行训练时，性能逐渐下降。然而，现有对模型崩溃的探索主要局限于单一的、单模态模型，限制了我们对更现实场景的理解，例如通过合成数据自主相互作用和持续进化的多样多模态AI代理。我们扩展了多模态合成数据训练和模型崩溃研究，涵盖了多模态的视觉语言生成系统，如视觉语言模型（VLMs）和文本到图像扩散模型，以及涉及多个模型的递归生成-训练循环。我们发现，在单一模态生成模型中观察到的模型崩溃，在多模态环境中表现出不同的特征，如视觉语言对齐的改进以及视觉语言模型图像-描述任务中方差的增加。此外，我们发现增加解码预算、提高模型多样性、以及使用冻结模型重新标注等一般方法可以有效地减轻模型崩溃。我们的发现为减少自我完善多代理AI系统中模型崩溃的风险以及精心制作 robust 多模态合成数据集提供了初步的见解和实用指南。

发布时间: 5/15/2025

查看原文

基于图的在线监测驾驶员状态方法：面部和骨架特征

作者: Olivia Nocentini, Marta Lagomarsino, Gokhan Solak, Younggeol Cho, Qiyi Tong, Marta Lorenzini, Arash Ajoudani

arXiv:2505.08800v1 宣告类型: cross 摘要：驾驶员疲劳对铁路安全构成了重大挑战，传统的系统如死人开关提供的警报检查有限且基础。本研究提出了一种基于在线行为监测系统，利用自定义的方向图神经网络（DGNN）将列车驾驶员的状态分类为三个类别：警觉、不警觉和病理。为了优化模型的输入表示，进行了消融研究，比较了三种特征配置：骨骼特征仅有的、面部特征仅有的以及两者的组合。实验结果表明，在三类模型中，结合面部和骨骼特征的组合获得了最高准确性（80.88%），优于仅使用面部或骨骼特征的模型。此外，该组合在二元警觉性分类中的准确率超过99%。此外，我们引入了一个新的数据集，在此数据集中首次将模拟病理条件纳入了列车驾驶员的监测中，扩大了对疲劳和健康相关的风险评估范围。这项工作代表了通过基于视觉技术的先进在线监测增强铁路安全的一个进步。

发布时间: 5/15/2025

查看原文

在上下文学习中的标签高效癌症图像分类在肿瘤学中的应用

作者: Mobina Shrestha, Bishwas Mandal, Vishal Mandal, Asis Shrestha

arXiv:2505.08798v1 类型: cross 摘要：AI在肿瘤学中的应用受到其对大型注释数据集的依赖以及需要对特定领域诊断任务重新训练模型的限制。鉴于这些局限性，我们考察了上下文学习作为一种实用的替代方案，该方案允许模型通过仅在推理时使用少量标记的示例来适应新的诊断任务，而无需重新训练。我们使用了四个视觉-语言模型（VLMs）：Paligemma、CLIP、ALIGN和GPT-4o，在三个肿瘤学数据集中评估了这些模型的性能：MHIST、PatchCamelyon和HAM10000。据我们所知，这是首次对多个VLM在不同肿瘤分类任务上的性能进行比较的研究。无需任何参数更新，所有模型在少量提示下都显示出了显著的性能提升，GPT-4o在二分类和多分类设置中的F1分数分别为0.81和0.60。虽然这些结果仍低于完全微调系统的天花板，但它们突显了上下文学习通过少量示例来近似特定任务行为的潜在价值，反映出临床医生通常是如何基于前例进行推理的。值得注意的是，尽管Paligemma和CLIP这样的开源模型规模较小，但也展现了竞争力的提升，这表明它们在计算受限的临床环境中部署的可行性。总体而言，这些发现强调了上下文学习作为肿瘤学中实用解决方案的潜力，尤其在罕见癌症和资源有限的环境中，微调不可行且注释数据难以获取。

发布时间: 5/15/2025

查看原文

意义的几何学：层次结构的完美时空表示

作者: Andres Anabalon, Hugo Garces, Julio Oliva, Jose Cifuentes

arXiv:2505.08795v1 类型：交叉摘要：我们展示了一种快速算法，可以将分层结构嵌入三维闵可夫斯基时空。数据的相关性最终完全编码在因果结构中。我们的模型仅依赖于有向标记对——局部分层信号——而不涉及全局符号结构。我们将该方法应用于WordNet语料库。我们提供了一种完美的嵌入方式，包括哺乳动物子树中的歧义（节点处有多于一个层次），使得分层结构完全编码在几何学中，并且与真实值完全相符。我们将这一方法扩展到完美嵌入WordNet中的最大无歧义子集，该子集包括82,115个名词标记，并且每个标记只有一个层次。我们引入了一种新颖的检索机制，其中因果关系而不是距离决定层次访问。我们的结果似乎表明，所有离散数据都有完美的几何表示，且为三维。由此产生的嵌入几乎是共变不变的，表明与广义相对论和场论有深刻联系。这些结果表明，概念、类别及其相互关系，即层次含义本身，是几何的。

发布时间: 5/15/2025

查看原文

一种用于数据科学中学术文献导航的检索增强生成框架

作者: Ahmet Yasin Aytar, Kemal Kilic, Kamer Kaya

arXiv:2412.15404v1 Announce Type: cross 摘要：在数据科学这一快速发展的领域中，有效地导航浩瀚的学术文献对于做出明智的决策和推动创新至关重要。本文介绍了一种增强的检索增强生成（RAG）应用程序，这是一种基于人工智能（AI）的系统，旨在帮助数据科学家访问精确且上下文相关性的学术资源。该AI驱动的应用程序结合了先进的技术，包括用于提取文献信息的GeneRation Of Bibliographic Data（GROBID）技术、微调的嵌入模型、语义切片以及摘要优先的检索方法，以显著提高检索信息的相关性和准确性。本AI实施特别解决了学术文献导航的挑战。使用检索增强生成评估系统（RAGAS）框架进行全面评估，显示了关键指标上的显著改善，特别是在上下文相关性方面，突显了该系统在减少信息过载并增强决策过程方面的有效性。我们的研究结果强调了这种增强的RAG系统在数据科学领域内进行学术探索的潜力，最终促进了研究和创新的工作流程。

发布时间: 5/15/2025

查看原文

语言代理镜像人类因果推理偏见。我们如何帮助它们像科学家一样思考？

作者: Anthony GX-Chen, Dongyan Lin, Mandana Samiei, Doina Precup, Blake A. Richards, Rob Fergus, Kenneth Marino

arXiv:2505.09614v1 宣告类型: 新摘要: 语言模型（LM）代理越来越多地被用作自主决策者，需要积极收集信息以指导其决策。对于这类代理来说，高效地探索和理解世界因果结构的关键认知技能至关重要——这对于稳健且科学依据充分的推理非常重要。然而，目前仍不清楚语言模型是否具备这种能力，还是表现出系统性的偏差导致错误的结论。在此项研究中，我们通过使用发展心理学中广泛认可的“Blicket 测试”范式来探讨语言模型探索和推断因果关系的能力。我们发现，语言模型可靠地推断出了常见的直观的析取因果关系，但系统性地在不寻常的，尽管是同样甚至更为有证据支持的合取因果关系上遇到了困难。这种“析取偏向”在各种模型家族、大小和提示策略中持续存在，并且随着任务复杂性的增加，性能进一步下降。令人感兴趣的是，类似的偏向在成年人类中也出现了，这表明语言模型可能继承了从训练数据中获得的深层次的推理启发式。因此，我们量化了语言模型与人类之间的相似性，发现语言模型表现出类似成年人的推断模式（而不是儿童模式）。最后，我们提出了一种测试时采样方法，该方法明确地从语言模型中采样并消除关于因果关系的假设。这种可扩展的方法显著减少了析取偏向，使语言模型更接近科学的、因果严谨的推理目标。

发布时间: 5/15/2025

查看原文