arXiv 论文列表

多模态医生在环：一种临床指导的可解释框架，用于预测非小细胞肺癌的病理反应

作者: Alice Natalina Caragliano, Claudia Tacconi, Carlo Greco, Lorenzo Nibid, Edy Ippolito, Michele Fiore, Giuseppe Perrone, Sara Ramella, Paolo Soda, Valerio Guarrasi

arXiv:2505.01390v1 交叉类型: cross 摘要：本研究提出了一种新颖的方法，结合多模态深度学习与固有可解释人工智能技术，以预测接受新辅助治疗的非小细胞肺癌患者在治疗过程中的病理反应。由于现有影像组学和单一模态深度学习方法的局限性，我们引入了一种中间融合策略，将成像数据和临床数据结合起来，使得数据模态之间的交互更加高效。所提出的多模态Doctor-in-the-Loop方法进一步增强了临床相关性，通过直接将临床医生的专业知识嵌入训练过程，逐步引导模型的注意力从广泛的肺部区域转移到特定的病灶。结果显示，这种方法提高了预测准确性和可解释性，提供了在临床应用中优化数据集成策略的见解。

发布时间: 5/5/2025

查看原文

FalconWing：一种开源的超轻型固定翼无人机研究平台

作者: Yan Miao, Will Shen, Hang Cui, Sayan Mitra

arXiv:2505.01383v1 宣告类型: cross 摘要：我们提出了一种开源的超轻量级(150g)固定翼平台——FalconWing，用于自主性研究。该硬件平台集成了一个小相机、标准机体、外部计算和无线电通信，以实现手动重置。我们通过使用一种新颖的从现实到模拟再到现实的学习方法，开发并部署了一个基于纯视觉的控制策略来进行自主着陆（不使用IMU或运动捕捉）。我们的学习方法包括：（1）利用3D高斯点画技术，基于实际世界图像构建一个逼真的模拟环境；（2）从基于视觉估算的真实飞行数据中识别非线性动力学；（3）通过仿真实例学习训练一个多模态Vision Transformer (ViT) 策略。ViT 架构通过自注意力将单一RGB图像与控制动作的历史结合在一起，保持时间上下文的同时保持实时20Hz推理。在硬件平台上零样本部署时，该策略在基于视觉的自主着陆中的成功率达到了80%。此外，我们还开源了系统动力学、用于逼真模拟器的软件以及学习方法。

发布时间: 5/5/2025

查看原文

评估解释：一种机制可解释性解释美德框架——奇怪的科学第一部分.ii

作者: Kola Ayonrinde, Louis Jaburi

arXiv:2505.01372v1 跨越类型：交叉摘要：机制可解释性（MI）旨在通过因果解释来理解神经网络。尽管MI有许多生成解释的方法，但由于缺乏评价解释的通用方法，进展一直受限。在这里，我们分析了基本问题：“什么是好的解释？”我们介绍了一种多元解释美德框架，该框架借鉴了科学哲学中的四个视角——贝叶斯视角、库恩视角、德国视角和法则视角，以系统地评估和改进MI中的解释。我们发现，紧凑证明考虑到许多解释美德，因此是一个有前途的方法。由我们框架暗示的富有成效的研究方向包括（1）明确定义解释的简洁性，（2）注重统一解释，以及（3）为神经网络推导普遍原则。改进的MI方法增强了我们监控、预测和引导AI系统的能力。

发布时间: 5/5/2025

查看原文

可微非线性模型预测控制

作者: Jonathan Frey, Katrin Baumg\"artner, Gianluca Frison, Dirk Reinhardt, Jasper Hoffmann, Leonard Fichtner, Sebastien Gros, Moritz Diehl

arXiv:2505.01353v1 宣告类型: cross 摘要: 在将学习增强方法与非线性模型预测控制(MPC)相结合的过程中，参数化解的高效计算是一个关键挑战，因为这些解的可用性对于许多学习算法至关重要。虽然机器学习社区提出的方法仅限于凸或无约束形式，本文讨论了使用隐函数定理(IFT)和内部点法(IPM)处理平滑最优性条件来进行一般非线性规划(NLPs)解的灵敏度计算。我们详细介绍了在使用IPM求解二次子问题的序列二次规划(SQP)方法中进行灵敏度计算的过程。该出版物还提供了一个有效的开源实现，框架内提供了通用最优控制问题的前向和伴随灵敏度，比最先进的求解器mpc.pytorch实现速度快3倍以上。

发布时间: 5/5/2025

查看原文

约束网络对抗攻击：有效性、稳健性与转移性

作者: Anass Grini, Oumaima Taheri, Btissam El Khamlichi, Amal El Fallah-Seghrouchni

arXiv:2505.01328v1 宣传类型: cross 摘要：尽管机器学习在网络安全入侵检测系统（NIDS）中取得了显著进展，特别是在物联网（IoT）环境中，这些设备会产生大量数据并且越来越容易受到网络威胁，但这些模型仍然容易受到对抗性攻击的影响。我们的研究揭示了一个现有对抗性攻击方法的关键缺陷：频繁违反物联网和网络流量固有的数值和分类限制等领域特定约束。这导致高达80.3%的对抗性示例无效，显著夸大了现实世界中的脆弱性。这些无效示例尽管能够欺骗模型，但并不代表可行的物联网部署中的攻击。因此，依赖这些结果可能会误导资源分配，夸大了启用物联网的NIDS模型对对抗性操纵的易感性。此外，我们展示了简单的替代模型，如多层感知器（MLP），生成的有效对抗性示例比复杂的架构，如卷积神经网络（CNN）和长短期记忆网络（LSTM），更多。使用MLP作为替代模型，我们分析了对抗性严重性在物联网上下文中常用的各种机器学习/深度学习（ML/DL）模型之间的转移性。本文强调了在评估和设计针对安全关键的物联网和网络应用的稳健ML/DL模型时，同时考虑领域约束和模型架构的重要性。

发布时间: 5/5/2025

查看原文

帮助大型语言模型保护自己：一个增强的过滤与摘要系统

作者: Sheikh Samit Muhaimin, Spyridon Mastorakis

arXiv:2505.01315v1 攻击类型：跨平台摘要：近期大型语言模型（LLM）的使用增长使其容易受到复杂的对抗性攻击、误导性的提示以及编码的恶意输入的影响。现有的防御措施通常需要重新训练模型，这在计算上是非常昂贵的，且对于部署来说也不实际。无需重新训练或微调，本研究提出了一种独特的防御框架，使LLMs能够自行识别、过滤和防御对抗性或恶意输入。该建议框架主要包括两个主要部分：（1）一个提示过滤模块，利用复杂的自然语言处理（NLP）技术，包括零样本分类、关键词分析以及编码内容检测（例如，base64、十六进制编码、URL编码），来检测、解码并分类有害输入；以及（2）一个摘要模块，处理并总结对抗性研究文献，以提供给LLM上下文感知的防御知识。通过融合文本提取、总结和有害提示分析，该方法增强了LLMs对抗对抗性利用的抵抗力。根据实验结果，该综合技术在检测有害模式、操控性语言结构和编码提示方面有98.71%的成功率。通过使用少量的对抗性研究文献作为上下文，该方法还允许模型在更高的脱逃攻击抵抗力和拒绝率的情况下正确响应有害输入。在保持LLM回应质量的同时，该框架显著提高了LLMs对恶意滥用的抵抗力，证明了其作为一种快速简便的替代重新训练基于的防御的有效性。

发布时间: 5/5/2025

查看原文

增强SPARQL查询重构以适应复杂本体对齐

作者: Anicet Lepetit Ondo, Laurence Capus, Mamadou Bousso

arXiv:2505.01309v1 类型: cross 摘要: SPARQL 查询重写是统一查询异构本体的一种基本机制，是链接数据Web中的一个关键组成部分。然而，本体对齐的复杂性，尤其是丰富的对应关系（c : c），使得这一过程充满挑战。现有的方法主要集中在简单的（s : s）和部分复杂的（s : c）对齐上，忽略了更表达性对齐所带来的挑战。此外，SPARQL 的复杂语法也为非专家用户充分利用本体中蕴含的知识构成了一道障碍。本文提出了一种创新的方法，用于根据用户自然语言表达的需求，自动将来源本体中的SPARQL查询重写到目标本体中。该方法利用了等价关系传递性的原则，以及大语言模型如GPT-4的高级能力。通过结合这些元素，该方法通过充分利用复杂的对应关系的表达性，特别是在处理（c : c）对应关系时，表现出高效处理复杂对齐的能力。此外，该方法为不熟悉SPARQL的用户提供了访问对齐本体的途径，提供了灵活的查询异构数据的解决方案。

发布时间: 5/5/2025

查看原文

安全关键软件评估中的文档检索增强微调（DRAFT）

作者: Regan Bolton, Mohammadreza Sheikhfathollahi, Simon Parkinson, Vanessa Vulovic, Gary Bamford, Dan Basher, Howard Parkinson

arXiv:2505.01307v1 安全类型：交叉摘要：安全关键软件评估需要针对复杂的监管框架进行稳健的评估，这一过程传统上受到手工评估的限制。本文提出了一种名为文档检索增强微调（DRAFT）的新方法，该方法增强了大型语言模型（LLM）在安全关键合规评估方面的能力。DRAFT 建立在现有的检索增强生成（RAG）技术之上，通过引入一种新的微调框架，适应我们的双检索架构，该架构可以同时访问软件文档和适用的参考标准。为了微调 DRAFT，我们开发了一种半自动的数据集生成方法，该方法结合了具有意义的干扰项的相关文档数量变化，以紧密模拟实际评估场景。使用 GPT-4o-mini 进行的实验显示，正确性比基线模型提高了 7%，并且在证据处理、响应结构和领域特定推理方面也取得了定性的改进。DRAFT 代表了一种实用的方法，可以在保持监管领域必不可少的透明性和基于证据的推理的同时，改进合规评估系统。

发布时间: 5/5/2025

查看原文

ViSA-Flow：通过大规模视频语义动作流加速机器人技能学习

作者: Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson

arXiv:2505.01288v1 宣告类型：交叉摘要：机器人获取复杂操作技能的主要挑战之一是收集大规模机器人演示的成本高昂。相比之下，人类可以通过观察他人与其环境的互动来高效学习。为了弥合这一差距，我们引入了语义动作流作为核心中间表示，捕捉关键的空间-时间操作者-对象交互，不受浅层视觉差异的影响。我们提出了ViSA-Flow框架，该框架通过未标记的大规模视频数据自我监督学习这种表示。首先，一个生成模型在从大规模人-物互动视频数据中自动提取的语义动作流上预训练，学习一个稳健的操作结构先验。其次，通过针对少量通过相同语义抽象流水线处理的机器人演示进行微调，有效地将这一先验适配到目标机器人。我们通过在CALVIN基准测试和实际任务上进行广泛的实验表明，ViSA-Flow取得了最先进的性能，特别是在低数据情况下超越了先前的方法，通过有效地将从人类视频观察中获得的知识转移到机器人执行中。视频可在https://visaflow-web.github.io/ViSAFLOW 获取。

发布时间: 5/5/2025

查看原文

2DXformer：双向变压器用于双外生变量的风功率预测

作者: Yajuan Zhang, Jiahai Jiang, Yule Yan, Liang Yang, Ping Zhang

arXiv:2505.01286v1 类型: cross 摘要：准确的风力发电量预测可以帮助制定科学的调度计划，这对于维持电力系统的安全、稳定和高效运行具有重要意义。近年来，基于深度学习的风力发电量预测方法专注于提取数据间的时空相关性，显著提高了预测精度。然而，这些方法存在两个局限性。首先，缺乏对变量间关系的建模，这限制了预测的准确性。其次，将内生变量和外生变量等同处理，导致内生变量和外生变量之间不必要的相互作用，增加了模型的复杂性。在本文中，我们提出了2DXformer，该方法在先前工作的基础上关注时空相关性，以解决上述两个局限性。具体地，我们将模型的输入分为三类：外生静态变量、外生动态变量和内生变量。首先，我们以通道无关的方式将这些变量作为变量标记嵌入。然后，我们使用注意力机制捕捉外生变量间的相关性。最后，我们使用带有残差连接的多层感知器来建模外生变量对内生变量的影响。在两个实际大型数据集上的实验结果表明，我们提出的2DXformer可以进一步提高风力发电量预测性能。代码可在以下仓库获取：\href{https://github.com/jseaj/2DXformer}{https://github.com/jseaj/2DXformer}。

发布时间: 5/5/2025

查看原文