arXiv 论文列表

作者: Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik

arXiv:2409.00134v4 宣告类型: replace-cross 摘要：多智能体路径规划（MAPF）问题是通常需要在一个共享环境中为多个智能体找到无碰撞路径的问题。即使在严格假设下，解决MAPF问题 optimally 也是 NP-hard 的，但对于如自动化仓库和交通系统等众多应用而言，寻找该问题的高效解决方案是至关重要的。近年来，基于学习的方法在MAPF领域受到了关注，尤其是利用深度强化学习的方法。通常，这些基于学习的MAPF求解器会增加一些额外组件，如单智能体规划或通信。与此相异，本文仅依赖于通过利用大量专家级MAPF解决方案的大规模数据集和基于变压器的神经网络来创建多智能体路径规划的基础模型MAPF-GPT。MAPF-GPT 能够生成行动，而无需额外的启发式搜索或通信。当解决不在训练数据集中出现的MAPF问题时，MAPF-GPT 展现了零样本学习的能力。我们显示，MAPF-GPT 在多种问题实例上显著优于当前表现最好的可学习的MAPF求解器，并且在推理过程中计算效率高。

发布时间: 2/12/2025

查看原文

什么是使数学问题对强化学习而言困难的原因：一个案例研究

作者: Ali Shehper, Anibal M. Medina-Mardones, Lucas Fagan, Bart{\l}omiej Lewandowski, Angus Gruen, Yang Qiu, Piotr Kucharski, Zhenghan Wang, Sergei Gukov

arXiv:2408.15332v2 Announce Type: replace-cross 摘要：利用组合群论中长期存在的猜想，我们从多个角度探讨了寻找带有不成比例高奖励的稀有实例的挑战。基于Andrews-Curtis猜想所定义的上下文中的经验教训，我们提出了算法改进和一种拓扑难度度量，这对于一类广泛的搜索问题具有重要意义。作为我们研究的一部分，我们还解决了几个开放的数学问题。值得注意的是，我们证明了Akbulut-Kirby系列（1981年）中的所有但两个表示均可缩短长度，并解决了Miller-Schupp系列（1991年）中的各种潜在反例，包括三个无限子家族。

发布时间: 2/12/2025

查看原文

大型语言模型时代的事实验证：一项综述

作者: Alphaeus Dmonte, Roland Oruche, Marcos Zampieri, Prasad Calyam, Isabelle Augenstein

arXiv:2408.14317v2 通知类型: 替换-交叉摘要: 互联网上可用的大量且不断增加的数据与手动声明和事实验证的劳动密集型任务激发了自动声明验证系统的开发兴趣。多年来，已经提出了多种深度学习和基于变换器的模型用于此任务。随着大型语言模型（LLMs）的引入及其在多项自然语言处理任务中的卓越表现，我们见证了基于LLMs的声明验证方法的激增，同时还包括使用新颖方法如检索增强生成（RAG）。在这篇综述中，我们提供了使用LLMs的最新声明验证框架的全面概述。我们详细描述了这些框架中使用的声明验证流水线的不同组成部分，包括检索、提示和微调的常见方法。最后，我们描述了为这项任务创建的公开可用的英语数据集。

发布时间: 2/12/2025

查看原文

KANs对多变量时间序列预测有效吗？

作者: Xiao Han, Xinfeng Zhang, Yiling Wu, Zhenduo Zhang, Zhe Wu

arXiv:2408.11306v2 公告类型: replace-cross 摘要：多变量时间序列预测是一项关键任务，它基于历史输入预测未来状态。相关技术在机器学习社区的发展中并行推进，从早期的统计学习方法到当今的深度学习方法。尽管取得了显著进步，现有的方法仍然难以应对低可解释性的挑战。柯尔莫哥洛夫-阿诺德网络（KAN）的兴起为解决这一挑战提供了新的视角，但目前尚不确定KAN在时间序列预测任务中的有效性。在本文中，我们旨在从性能、集成性、效率和可解释性等方面评估KAN在时间序列预测中的有效性。为此，我们提出了多层KAN混合网络（MMK），该网络在保持KAN能够转换为符号函数组合的能力的同时实现了出色的表现。MMK的核心模块是KAN混合层，该层使用专家结构分配变量给最佳匹配的KAN专家。然后，我们探索了一些在训练阶段处理问题的有用实验策略。最后，我们在七个数据集上将MMK与各种基线进行比较。广泛的实验和可视化结果表明，KAN在多变量时间序列预测中是有效的。代码可在以下链接获取：https://github.com/2448845600/EasyTSF。

发布时间: 2/12/2025

查看原文

近的、远的：patches排序增强视觉基础模型的场景理解

作者: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano

arXiv:2408.11054v2 自监督训练损失类型: replace-cross 摘要: 我们引入了名为 NeCo: Patch Neighbor Consistency 的一种新颖的自监督训练损失，该方法在学生模型和教师模型之间强制实现了补丁级别最近邻的一致性。与仅提供二进制学习信号（即 '吸引' 和 '排斥'）的对比方法相比，这种方法受益于对参考补丁按空间密集特征进行排序的更细致的学习信号。我们的方法利用差分排序技术，应用于预训练表示之上，以启动学习信号并进一步改进它们。尽管仅在单个 GPU 上需要 19 个小时，这种方法仍能在各种模型和数据集中取得卓越的性能。此外，这种方法生成了高质量的密集特征编码器，并在 ADE20k 和 Pascal VOC 的无参数上下文语义分割、COCO-Things 和 -Stuff 的线性分割评估以及 SPair-71k 中多视图一致性下的三维理解方面，建立了多个新的最先进成果，分别提高了 5.5%、6%、7.2% 和 5.7%，以及超过 1.5%。

发布时间: 2/12/2025

查看原文

阿美罗和查尔：分析预训练与大规模语言模型微调之间的关系

作者: Kaiser Sun, Mark Dredze

arXiv:2408.06663v4 公告类型：替换-交叉摘要：大规模语言模型的发展形成了先预训练再对齐的范式，在这一范式中，模型通常在大规模文本语料库上进行预训练，并经历一个调整阶段，使模型与人类偏见或下游任务对齐。在这项工作中，我们通过对多个中间预训练模型检查点进行微调来研究预训练与微调之间的关系。我们的18个数据集上的结果显示：i) 持续预训练以潜在的方式改善模型，在微调后才显现；ii) 通过额外的微调，模型展示能力不足的数据集比预训练阶段表现良好的数据集获得更多提升；iii) 尽管通过监督微调模型能够显著受益，但它可能会忘记之前已知的领域知识和在微调过程中未看到的任务；iv) 模型在监督微调后对评估提示显示出高度敏感性，但通过更多的预训练可以减轻这种敏感性。

发布时间: 2/12/2025

查看原文

一种受机器人学启发的扫视模型揭示了在动态场景中注视引导的重要性及不确定性与语义物体线索的作用

作者: Vito Mengers, Nicolas Roth, Oliver Brock, Klaus Obermayer, Martin Rolfs

arXiv:2408.01322v3 通告类型: 替换-交叉摘要: 我们感知的对象在观察真实世界的动态场景时引导着我们的眼球运动。然而，眼动转移和选择性注意力对于感知细节和细化对象边界至关重要。对象分割和注视行为通常被视为两个独立的过程。本文展示了一个计算模型，该模型以相互关联的方式模拟了这些过程，并允许进行假设驱动的注意力机制探究。借鉴了机器人领域的信息处理模式，我们使用贝叶斯滤波器递归地分割场景，同时也提供了一个用于引导主动场景探索的对象边界不确定性估计。研究表明，该模型在动态真实世界场景的数据集上与观察者的自由视图行为非常相似，由扫描路径统计学测量，包括用于参数拟合的视网膜持续时间和用于高级统计学的散跳幅度分布，而不用于拟合。这些包括对象检测、检查和返回之间的平衡以及没有显式实现的返回散跳延迟。广泛的模拟和消融研究表明，不确定性促进了平衡探索，并且语义对象线索对于形成用于基于对象注意力的感知单位至关重要。此外，我们展示了我们模型的模块化设计如何允许扩展，例如整合散跳动量或预散跳注意力，以进一步使输出与人类扫描路径一致。

发布时间: 2/12/2025

查看原文

LLM指纹图：大规模语言模型的标识方法

作者: Dario Pasquini, Evgenios M. Kornaropoulos, Giuseppe Ateniese

arXiv:2407.15847v4 Announce Type: replace-cross 摘要：我们引入了LLMmap，这是一种针对LLM集成应用的第一代指纹识别技术。LLMmap采用主动指纹识别方法，向应用程序发送精心设计的查询，并分析响应以确定所使用的具体LLM版本。我们的查询选择受到在不同主题提示下LLM生成可识别响应的专业知识的指导。仅通过8次交互，LLMmap就能以超过95%的准确性识别42种不同的LLM版本。更重要的是，LLMmap设计成能够在不同应用程序层上保持稳健，使其能够识别来自不同供应商的各种开源或专有LLM版本，这些版本在各种未知系统提示、随机采样超参数和复杂的生成框架（如RAG或Chain-of-Thought）下运行。我们讨论了潜在的缓解措施，并表明，在面对资源丰富的对手时，有效的应对措施可能是具有挑战性的或甚至是不可能实现的。

发布时间: 2/12/2025

查看原文

是雨吗？理解降雨对自主无人机视觉里程计性能的影响以及边缘高效DNN降雨分类的关联研究

作者: Andrea Albanese, Yanran Wang, Davide Brunelli, David Boyle

arXiv:2407.12663v2 安全类型: 替换交叉摘要：自主无人驾驶飞行器的安全可靠发展依赖于系统能够根据传感器输入识别和适应当地环境变化的能力。最先进的局部跟踪和轨迹规划通常使用相机传感器输入到飞行控制算法中，但环境干扰如雨水对其性能的影响程度尚不清楚。在本文中，我们首先开发了一个包含约335k张图像的开放数据集，以研究在七种不同的降水条件下这些影响，并表明最先进的视觉里程计系统（VINS-Fusion）在最坏情况下可能的平均跟踪误差为1.5米。随后，我们使用数据集训练了一组适合移动和受限部署场景的深度神经网络模型，以确定是否可以高效准确地分类这些“雨天”条件。这些最轻量级的模型（MobileNetV3小）可以在内存占用仅为1.28 MB且帧率为93 FPS的情况下实现90%的准确率，这适用于资源受限和对时延敏感的系统。我们使用典型飞行计算机硬件展示了毫秒级的分类延迟。因此，这种模型可以作为自主飞行控制器的扰动估计组件的一部分。此外，能够实时准确确定环境条件的无人驾驶飞行器的数据可能有助于开发更细致的局部天气预报。

发布时间: 2/12/2025

查看原文

SKADA-Bench：基于多样模态现实验证的无监督领域适应方法基准测试

作者: Yanis Lalou, Th\'eo Gnassounou, Antoine Collas, Antoine de Mathelin, Oleksii Kachaiev, Ambroise Odonnat, Alexandre Gramfort, Thomas Moreau, R\'emi Flamary

arXiv:2407.11676v3 宣布类型: replace-cross 摘要: 无监督领域适应(DA)涉及将在一个标注源域上训练的模型调整以在一些数据分布变化的未标注目标域上表现良好。尽管文献中提出了许多方法，但在方法论上，在无监督设置中选择超参数仍然存在困难，公平和现实的评估仍然是一个开放的问题。通过 SKADA-bench，我们提出了一种框架，在图像识别任务之外的多种模态上评估 DA 方法，这些模态在文献中已经得到了大量的探索。我们对现有的浅层算法进行了完整且公平的评估，包括重新加权、映射和子空间对齐。通过嵌套交叉验证和各种无监督模型选择评分，我们对模拟数据集（包括受控变化的数据集）以及来自多种模态（如图像、文本、生物医学和表格数据）的真实世界数据集进行了现实的超参数选择。我们的基准强调了现实验证的重要性，并为实际应用提供了实用的指导，提供了关于模型选择方法的选择和影响的关键见解。SKADA-bench 是开源的、可重复的，并且可以通过添加新的 DA 方法、数据集和模型选择标准在无需重新评估竞争对手的情况下轻松扩展。SKADA-bench 可在 Github 上获取，网址为 https://github.com/scikit-adaptation/skada-bench。

发布时间: 2/12/2025

查看原文