arXiv 论文列表

令牌的隐秘生活：通过视觉信息引导减少大型视觉-语言模型的幻觉

作者: Zhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas

arXiv:2502.03628v1 交叉公告类型摘要：大型视觉-语言模型（LVLMs）可以在文本和视觉输入之间进行有效的推理，但它们往往会生成语法上连贯但与视觉内容无关的内容。本文通过在整个生成过程中检查标记对数排名来研究幻觉的内部动态，揭示了LVLMs处理信息的三种关键模式：(1) 视觉信息逐渐丢失——在生成过程中，与视觉内容相关的标记逐渐变得不太受欢迎；(2) 早期兴奋——具有语义意义的标记在其层中的激活会在最终层之前达到峰值；(3) 隐藏的真实信息——尽管最终未被决定，但在推理过程中，与视觉内容相关的标记仍然保持相对较高的排名。基于这些洞察，我们提出了一种无需训练的推理时干预框架VISTA（基于标记对数增强的视觉信息导向），该框架减少了幻觉同时促进真实信息。VISTA通过结合两种互补的方法起作用：在激活空间中增强视觉信息，并利用早期层的激活来促进具有语义意义的解码。与现有方法相比，VISTA不需要外部监督，并且适用于各种解码策略。广泛的实验证明，与评估的开放生成任务相比，VISTA平均减少了约40%的幻觉；并且在三种解码策略下的四种架构和四种基准测试中，VISTA始终优于现有方法。

发布时间: 2/7/2025

查看原文

AdaPhish：基于AI的适应性防御与教育资源对抗欺骗性邮件

作者: Rei Meguro, Ng S. T. Chong

arXiv:2502.03622v1 Announce Type: cross 摘要：钓鱼攻击仍然是数字时代的一大威胁，但组织缺乏有效的方法来应对钓鱼攻击而不泄露敏感信息。钓鱼碗行动是针对这些攻击的网络安全努力中重要的一部分。然而，传统的钓鱼碗需要手动脱敏，并且通常仅限于内部使用。为克服这些限制，我们介绍了AdaPhish，这是一种基于人工智能的钓鱼碗平台，利用大型语言模型（LLMs）和向量数据库自动脱敏和分析钓鱼邮件。AdaPhish 实现了对新钓鱼手法的实时检测和适应，并支持长期追踪钓鱼趋势。通过自动化报告、自适应分析和实时警报，AdaPhish 提供了一个可扩展且协作的钓鱼检测和网络安全教育解决方案。

发布时间: 2/7/2025

查看原文

一种新型的零碰触、零信任、AI/ML使能的物联网网络安全性框架

作者: Sushil Shakya, Robert Abbas, Sasa Maric

arXiv:2502.03614v1 跨域类型: 交叉学科摘要：物联网（IoT）促进了连接、智能和可持续的社会；因此，保护物联网生态系统至关重要。基于物联网的5G和6G将进一步利用机器学习和人工智能（ML/AI）技术，为自主协作的物联网网络铺平道路。利用AI和机器学习（ML）增强的零接触、零信任物联网安全提供了一种强大的方法，以保护不断扩大的物联网设备景观。本文提出了一种新型框架，该框架结合了零信任、零接触和基于AI/ML以检测、缓解和防止现代物联网生态系统的DDoS攻击。重点在于通过为所有物联网流量、固定和移动5G/6G物联网网络流量以及数据安全（隔离零接触和动态策略执行）建立零信任的新集成框架。我们通过对比准确率、精确率、召回率、F1分数和ROC-AUC来比较五种机器学习模型，即XGBoost、随机森林、K-最近邻、随机梯度下降和支持向量机。结果表明，基于集成的方法在检测和缓解不同DDoS向量方面表现最佳。

发布时间: 2/7/2025

查看原文

MoE vs. MLP 在表格数据上的表现

作者: Andrei Chernov

arXiv:2502.03608v1 类型: cross 摘要: 近年来，人们投入了大量精力将现代神经网络架构适应于表格数据。然而，尽管这些模型具有更多的参数以及更长的训练和推理时间，但它们并不总能持续表现出色，超越传统的多层感知机（MLP）神经网络。此外，基于MLP的集成方法最近展示了与先进深度学习方法相比优越的性能和效率。因此，与其专注于构建更深更复杂的深度学习模型，我们建议探究是否可以使用更高效的架构替代MLP神经网络而不牺牲性能。在本文中，我们首先介绍了GG MoE，这是一种带有Gumbel-Softmax门控函数的专家混合模型。然后，我们证明了带有嵌入层的GG MoE在38个数据集上实现了与标准MoE和MLP模型相比最高的性能。最后，我们展示了MoE和GG MoE都比MLP使用了显著较少的参数，使它们成为扩展和集成方法的有前途的替代方案。

发布时间: 2/7/2025

查看原文

多机器人同时运动规划与投影扩散模型

作者: Jinhao Liang, Jacob K Christopher, Sven Koenig, Ferdinando Fioretto

arXiv:2502.03607v1 宣布类型: cross 摘要：最近在扩散模型方面的进步在机器人领域具有巨大的潜力，能够直接从环境的原始表示中生成多样且平滑的轨迹。尽管如此，将扩散模型应用于运动规划仍然具有挑战性，因为它们难以强制执行关键约束，如碰撞避免和运动学可行性。这些限制在多机器人运动规划（MRMP）中尤为明显，其中多台机器人必须在共享空间中协调运动。为了解决这一挑战，本文提出了一种名为同时多机器人运动规划扩散（SMD）的新方法，该方法将约束优化整合到扩散抽样过程中，以生成无碰撞且运动学可行的轨迹。此外，本文还提出了一套全面的 MRMP 基准，用于评估轨迹规划算法在机器人密度、障碍物复杂性和运动约束不同的场景中的性能。实验结果表明，SMD 一贯优于传统的和学习驱动的运动规划算法，在复杂的多机器人环境中实现了更高的成功率和更高的效率。

发布时间: 2/7/2025

查看原文

基于临床灵感的分层多标签分类方法：带有惩罚性损失函数的胸部X光分类

作者: Mehrdad Asadi, Komi Sodok\'e, Ian J. Gerard, Marta Kersten-Oertel

arXiv:2502.03591v1 提交类型: cross 摘要: 在本文中，我们提出了一种新的方法，用于增强临床可解释性的多标签胸片(X-ray)图像分类，同时保持单一模型、单一运行的训练管道。我们利用CheXpert数据集和VisualCheXbert衍生的标签，引入层次标签分组以捕捉诊断之间的临床意义关系。为实现这一目标，我们设计了一个自定义的层次二元交叉熵(HBCE)损失函数，该函数使用固定的或数据驱动的惩罚类型来强制执行标签依赖性。我们的模型在测试集上达到了0.903的平均受试者操作特征曲线下的面积（AUROC）。此外，我们还提供了可视化解释和不确定性估计，以进一步增强模型的可解释性。所有代码、模型配置和实验细节均公开提供。

发布时间: 2/7/2025

查看原文

多任务学习方法的线性多元预测

作者: Liran Nochumsohn, Hedi Zisling, Omri Azencot

arXiv:2502.03571v1 交叉公告类型：time series 摘要：多变量时间序列数据的准确预测在许多工程和科学应用中非常重要。最近的先进研究成果忽略了各个变量之间的相互关系，独立地在每个变量上应用其模型。这引发了关于多变量数据适当建模的研究问题。在本文中，我们提出将多变量预测视为一个多任务学习问题，通过考虑任务梯度之间的角度及其平衡来促进预测分析。为此，我们分析线性模型以表征任务的行为。我们的分析表明，可以通过根据基于相关性的相似性将相似的变量分组来定义任务，我们通过简单的聚类方法实现这一点。此外，为了平衡任务，我们根据预测误差对梯度进行缩放。然后，我们使用我们提出的MTLinear框架内的线性模型来解决每个任务。我们在具有挑战性的基准上评估了我们的方法，并将其与强大的基线进行比较，结果显示我们的方法在多变量预测问题上获得了可比或更优的结果。该实现可在：https://github.com/azencot-group/MTLinear 获取。

发布时间: 2/7/2025

查看原文

代码模拟作为大型语言模型中高级任务的代理

作者: Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, X. Angelo Huang, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge

arXiv:2502.03568v1 宣告类型: 交叉摘要：许多推理、规划和问题解决任务具有内在的算法性质：正确地模拟每一步是能够正确解决它们的充分条件。我们收集了一组自然主义和合成推理任务，以评估大型语言模型（LLM）的能力。虽然自然主义任务往往需要精细的人工手工制作，但我们表明，在许多情况下，合成数据是一个很好的替代品，不仅更容易大规模收集。我们利用编程中的常见构造作为自然主义推理任务的基本构建块的对应物，例如简单的直线程序、包含关键路径的代码和近似且冗余的指令。我们还通过排序算法和嵌套循环，评估了LLM在排序问题和重复操作方面的能力。我们的合成数据集进一步揭示，尽管最强大的LLM展示了相对较强的操作能力，但这个过程是脆弱的：它受到记忆的影响并且似乎严重依赖于模式识别。我们的贡献在于基于合成方式测试LLM的推理能力，作为手工制作的人工标注问题的可扩展补充。

发布时间: 2/7/2025

查看原文

网络中的比例选择

作者: Georgios Papasotiropoulos, Oskar Skibski, Piotr Skowron, Tomasz W\k{a}s

arXiv:2502.03545v1 类别: cross 摘要: 我们致力于从网络中选择 $k$ 个具有代表性的节点，旨在实现两个目标：识别最有影响力的节点，并确保选择能够反映网络的多样性。我们提出了两种方法来实现这一目标，对这两种方法进行了理论分析，并通过一系列实验展示了它们的有效性。

发布时间: 2/7/2025

查看原文

掩码扩散模型采样的路径规划

作者: Fred Zhangzhi Peng, Zachary Bezemek, Sawan Patel, Sherwood Yao, Jarrid Rector-Brooks, Alexander Tong, Pranam Chatterjee

arXiv:2502.03540v1 宣告类型: cross 摘要: 在本文中，我们研究了在掩码扩散模型(MDMs)推断过程中，token被解掩的方法顺序如何影响生成质量。我们推导出一个扩展的证据下界(ELBO)，其中引入了一个规划器，负责在每一步选择解掩哪些token。我们的分析表明，不同的解掩策略可以提高生成性能。基于这些见解，我们提出了路径规划(P2)，一种利用预训练的BERT或去噪器本身来引导解掩决策的采样框架。P2能够扩展所有已知的MDM采样策略，并在包括语言生成（上下文学习、代码生成、故事填充、数学推理、反向诅咒纠正）和生物序列生成（蛋白质和RNA序列）等多种领域实现显著改进。

发布时间: 2/7/2025

查看原文