arXiv 论文列表

作者: Bofei Liu, Dong Ye, Zunhao Yao, Zhaowei Sun

arXiv:2505.01966v1 交叉公告类型摘要：模块化可重构卫星指的是由能够改变其配置的个体模块单元组成的卫星集群。这些配置变化使得执行多种任务和使命目标成为可能。现有的重构路径规划算法通常面临高计算复杂性、 poor 一般化能力和对多样目标配置有限支持等问题。为解决这些挑战，本文提出了一种目标导向的基于强化学习的路径规划算法。该算法是首次克服了之前强化学习方法未能解决的挑战，即处理多种目标配置。此外，还引入了前瞻经验重放和无效动作屏蔽技术，以克服稀疏奖励和无效动作带来的重大障碍。基于这些设计，我们的模型在由四个和六个模块组成的模块化卫星集群中分别实现了达到任意目标配置的 95% 和 73% 的成功率。

发布时间: 5/6/2025

查看原文

SafeNav：在GPS受限环境中基于地标定位的安全路径导航

作者: Ganesh Sapkota, Sanjay Madria

arXiv:2505.01956v1 交叉公告类型摘要：在战场上，对手经常干扰 GPS 信号，从而需要使用替代的定位和导航方法。传统的基于视觉的方法，如即时定位与地图构建（SLAM）和视觉里程计（VO）涉及复杂的传感器融合和高计算需求，而无距离方法，如DV-HOP，在稀疏、动态的网络中面临精度和稳定性挑战。本文提出了LanBLoc-BMM，这是一种将基于特征点的定位（LanBLoc）与战场特定的运动模型（BMM）和扩展卡尔曼滤波器（EKF）相结合的导航方法。其性能是与集成BMM和贝叶斯滤波器的三种先进视觉定位算法进行了对比，评估结果使用包括平均位移误差（ADE）、最终位移误差（FDE）和一个新的引入的加权风险分数平均值（AWRS）等指标在合成和实拍仿真实例轨迹数据集上得出。LanBLoc-BMM（结合EKF）在实拍仿真实例中的ADE、FDE和AWRS上显示出更优的性能。此外，还引入了两种安全导航方法，即通过将LanBLoc-BMM（EKF）与一种新颖的风险意识 RRT*（RAw-RRT*）算法结合以进行障碍物避开和风险暴露最小化而得到的SafeNav-CHull和SafeNav-Centroid。战场场景的仿真结果表明，SafeNav-Centroid在准确性、风险暴露和轨迹效率方面表现出色，而SafeNav-CHull则提供了更快的计算速度。

发布时间: 5/6/2025

查看原文

RGB-热图像分割语言辅助蒸馏模型

作者: Dong Xing, Xianxun Zhu, Wei Zhou, Qika Lin, Hang Yang, Yuqing Wang

arXiv:2505.01950v1 类型: cross 摘要: 最近的 Segment Anything Model (SAM) 在各种下游任务中展示了强大的实例分割性能。然而，SAM 仅在 RGB 数据上进行训练，限制了其直接应用于 RGB-热（RGB-T）语义分割的能力。鉴于 RGB-T 在恶劣天气和光照条件下，如低光和过曝情况下，为场景理解提供了稳健的解决方案，我们提出了一个名为 SARTM 的新型框架，该框架旨在将强大的 SAM 定制化用于 RGB-T 语义分割。我们的核心思想是释放 SAM 的潜力，并引入语义理解模块来处理 RGB-T 数据对。具体来说，该框架首先通过添加额外的 LoRA 层微调原始 SAM，目的是保留 SAM 在下游任务中的强大泛化能力和分割能力。其次，我们引入了语言信息作为训练 SARTM 的指导。为了解决多模态不一致性，我们引入了一个跨模态知识蒸馏 (CMKD) 模块，该模块有效地实现了模态适应，同时保持其泛化能力。该语义模块能够最小化模态差距，缓解语义模糊，从而有助于在任何视觉条件下结合任何模态。此外，我们通过调整 SAM 的分割头并结合一个辅助语义分割头来增强分割性能，该辅助语义分割头整合多尺度特征以实现有效的融合。我们在三个多模态 RGBT 语义分割基准测试集（MFNET、PST900 和 FMB）上进行了广泛的实验。定量和定性的结果一致表明，提出的 SARTM 在各种条件下显著优于现有最先进的方法。

发布时间: 5/6/2025

查看原文

多尺度图学习for抗稀疏降采样

作者: Yingda Fan, Runlong Yu, Janet R. Barclay, Alison P. Appling, Yiming Sun, Yiqun Xie, Xiaowei Jia

arXiv:2505.01948v1 交叉公告类型：cross 摘要：同一子流域内，水温即使在较短的距离内也可能有显著变化。在细空间分辨率（即，细尺度，≤1km）下准确预测溪流水温能够实现精确的干预措施，以维持水质并保护水生栖息地。虽然时空模型在粗空间时间序列建模方面取得了显著进展，但在细空间尺度上预测仍然存在挑战，因为缺乏该尺度上的数据。为了解决细尺度数据不足的问题，我们提出了一种多尺度图学习（MSGL）方法。该方法采用多任务学习框架，在较大数据集的支持下，粗尺度图学习同时提升了细尺度图学习。尽管现有的多尺度或多分辨率方法整合了不同空间尺度的数据，但它们往往忽略了不同尺度图结构之间的空间对应关系。为了解决这个问题，我们的MSGL引入了一个额外的学习任务，跨尺度内插学习，该任务利用粗尺度和细尺度图中溪流位置的水文联系，建立跨越不同尺度的连接，从而提升整体模型性能。此外，我们还提出了异步多尺度图学习方法（ASYNC-MSGL），打破了多尺度学习仅限于同步训练的思维。广泛的实验表明，该方法在美国德拉瓦河盆地的每日溪流温度反稀疏下采样任务中实现了最先进的性能，突显了其在水资源监测和管理中的潜在用途。

发布时间: 5/6/2025

查看原文

设计中的可解释性：合法编码过程的实验分析

作者: Matteo Cristani, Guido Governatori, Francesco Olivieri, Monica Palmirani, Gabriele Buriola

arXiv:2505.01944v1 逻辑类型: cross 摘要：在规范 defeasible 逻辑学的一系列规则背后，存在一个将规范背景片段映射到规则的过程。这一过程从文本出发，转变成规则，隐含地涵盖了编码片段的解释。在这篇论文中，我们提供了一种名为“法律编码”的方法，该方法从一个片段出发，最终生成一组 defeasible 逻辑学规则，涉及一系列“场景”以测试编码片段的正确性。该方法通过一个示例文本的编码过程进行了说明。然后，我们展示了使用人类对多种规范背景及其对应的案例进行编码的一系列实验结果。我们测量了编码过程中的努力程度，与一些可测量的特征相关。为了处理这些示例，我们使用了一种最近开发的技术 Houdini，它允许在 defeasible 逻辑学中进行推理。最后，我们提供了一种预测编码所需时间的技术，该时间取决于如法律领域的知识、编码过程的知识、文本长度以及法律参考资料路径长度的“深度”等因子。

发布时间: 5/6/2025

查看原文

语义智能：将GPT-4与规划集成到低成本机器人中

作者: Jesse Barkley, Abraham George, Amir Barati Farimani

arXiv:2505.01931v1 交叉公告类型摘要：传统的机器人导航通常依赖于硬编码的状态机和纯粹的几何路径规划者，限制了机器人解释高级语义指令的能力。在这篇论文中，我们首先评估了GPT-4作为路径规划者的表现与A*算法相比如何，然后提出了一种结合GPT-4语义推理与A*算法的混合规划框架，该框架运行在ROS2 Humble上的低成本机器人平台上。我们的方法通过使用基于提示的GPT-4推理来处理任务逻辑，从而消除了显式的有限状态机(FSM)编码，同时保持了A*计算的准确路径。GPT-4模块提供了对指令和环境线索的语义理解（例如，识别有毒障碍物或拥挤区域以避免，或理解低电量情况需要选择备选路线），并通过障碍缓冲动态调整机器人的占用网格，以强制执行语义约束。我们展示了对于序列任务的多步推理，例如首先导航到资源目标，然后安全地到达最终目的地。通过在配备顶部摄像头和树莓派Zero 2W的Petoi Bittle机器人上进行实验，将经典的A*算法与GPT-4辅助的规划进行了比较。结果显示，虽然A*在基础路线生成和避障方面更快更准确，但集成GPT-4的系统在纯几何规划者无法解决的语义任务上实现了高达96-100%的成功率。这项工作突显了通过利用大型语言模型推理，低成本机器人可以表现出智能且具有上下文意识的行为，而无需大量硬件和微调。

发布时间: 5/6/2025

查看原文

BOOM: 评估机器学习模型在分布外分子性质预测中的表现

作者: Evan R. Antoniuk, Shehtab Zaman, Tal Ben-Nun, Peggy Li, James Diffenderfer, Busra Demirci, Obadiah Smolenski, Tim Hsu, Anna M. Hiszpanski, Kenneth Chiu, Bhavya Kailkhura, Brian Van Essen

arXiv:2505.01912v1 Announce Type: cross 摘要：深度学习和生成建模的进步推动了数据驱动的分子发现管道的研究，其中机器学习（ML）模型用于筛选和设计新颖的分子，而不需要昂贵的第一性原理模拟。虽然发现超出已知化学界限的新分子需要准确的离域分布（OOD）预测，但ML模型通常难以一般化到OOD场景。此外，当前没有系统地评估分子OOD预测任务的表现。我们介绍了BOOM，即分子性质离域分布预测基准——一种基于性质的离域分布预测模型的基准研究，用于常见分子性质预测模型。我们评估了超过140种模型和属性预测任务的组合，以基准测试深度学习模型的OOD性能。总体而言，我们没有发现任何现有模型能够在所有任务中实现强大的OOD泛化能力：即使表现最好的模型，其平均OOD误差也比在域误差大3倍。我们发现，具有高归纳偏置的深度学习模型在简单的特定属性的OOD任务中表现良好。虽然化学基础模型与迁移学习和上下文学习结合使用，提供了在有限训练数据场景中的有前途的解决方案，但我们发现当前的基础模型并不表现出强大的OOD外推能力。我们进行了广泛的消融实验，以阐明数据生成、预训练、超参数优化、模型架构和分子表示对OOD性能的影响。我们提出，开发具有强OOD泛化能力的ML模型是化学ML模型开发的新前沿挑战。这个开源基准将在Github上提供。

发布时间: 5/6/2025

查看原文

LookAlike：数学选择题中的一致性干扰项生成

作者: Nisarg Parikh, Nigel Fernandez, Alexander Scarlatos, Simon Woodhead, Andrew Lan

arXiv:2505.01903v1 Announce Type: cross 摘要：大型语言模型（LLMs）越来越多地用于生成多项选择题（MCQs）的诱错选项，尤其是在数学教育领域。然而，现有的方法在确保生成的诱错选项与常见学生错误一致方面存在限制。我们提出了一种称为LookAlike的方法，通过偏好优化来提高错误诱错选项的一致性。我们的两大创新是：(a) 从模型不一致性中挖掘合成偏好配对，并且(b) 交替进行监督微调（SFT）和直接偏好优化（DPO）以稳定训练。与依赖于启发式方法或手动标注偏好数据的先前工作不同，LookAlike使用自身生成的不一致性作为不受欢迎的样本，从而实现规模化的稳定训练。在包含1,400多个数学MCQ的真实数据集上进行评估，LookAlike在LLM作为评判者的评估中，诱错选项生成的准确率达到了51.6%，错误生成的准确率达到了57.2%，超过了现有的先进方法（45.6% / 47.7%）。这些改进突显了基于偏好正则化和不一致性挖掘在大规模生成一致的数学MCQ诱错选项方面的有效性。

发布时间: 5/6/2025

查看原文

OODTE：ONNX优化器的微分测试引擎

作者: Nikolaos Louloudakis, Ajitha Rajan

arXiv:2505.01892v1 宣告类型: cross 摘要：在 GitHub 上有 700 颗星星，并且部分隶属于官方 ONNX 仓库，ONNX 优化器包括用于在 ONNX 模型上应用图基优化的标准方法。然而，其在优化过程中保持模型准确性的能力尚未得到严格研究。我们提出了 OODTE，一种自动且彻底评估 ONNX 优化器正确性的工具。OODTE 遵循一种简单而有效的差分测试和评估方法，这种方法可以方便地应用于其他编译器优化器。具体而言，OODTE 利用了多种 ONNX 模型，然后对其进行优化，并在用户定义的输入集上执行原始和优化版本，同时自动记录任何优化过程中的问题。最后，对于成功优化的模型，OODTE 比较结果，如果发现任何准确性的偏差，它将迭代地重复 ONNX 优化器的每个进程，以定位观察到的差异的根本原因。使用 OODTE，我们从官方 ONNX 模型库中提取了 130 个广为人知的模型，这些模型用于各种任务（分类、对象检测、语义分割、文本总结、问答、情感分析）。我们检测到了 15 个问题，其中 14 个是之前未知的问题，与优化器崩溃和准确性偏差相关。我们还观察到，在所有模型实例中有 9.2% 的情况导致优化器崩溃，或者在使用主要优化器策略时生成了一个无效模型。此外，在原始和优化模型版本之间，有 30% 的分类模型显示出准确性的差异，至少有 16.6% 的语义分割和对象检测模型受到影响，尽管程度比较有限。

发布时间: 5/6/2025

查看原文

深学习模型在SAR图像内陆水体分割中的对抗 robustness 分析

作者: Siddharth Kothari, Srinivasan Murali, Sankalp Kothari, Ujjwal Verma, Jaya Sreevalsan-Nair

arXiv:2505.01884v1 交叉类型摘要：内陆水域从合成孔径雷达（SAR）图像中分割是一项重要的任务，对于诸如洪水地图绘制等多种应用而言都是必不可少的。尽管SAR传感器能够在全天候条件下以高分辨率采集数据，但从SAR图像中区分水体和类似水体的表面并非易事。内陆水体，如大型河流流域，具有复杂的几何结构，这增加了分割的挑战性。U-Net是一种广泛用于SAR图像土地-水体分割的深度学习模型。在实践中，通常使用手动标注来生成相应的水体掩码作为真实标注。由于数据污染攻击，特别是由于复杂的几何结构，图片的手动标注容易受到标记噪声的影响。在本文中，我们模拟U-Net模型中的手动错误，以对抗性攻击的形式，并研究模型对标注中的人类错误的鲁棒性。我们的研究结果表明，U-Net在性能显著下降之前可以容忍一定程度的损坏。这一发现突显了手动标注质量在决定分割模型效果中的关键作用。代码和新的数据集，以及用于鲁棒训练的对抗性示例，均已公开可用。（GitHub链接 - https://github.com/GVCL/IWSeg-SAR-Poison.git）

发布时间: 5/6/2025

查看原文