arXiv:2409.15114v2 干扰类型:替换
摘要:壅塞装置破坏全球导航卫星系统(GNSS)信号,构成了重大威胁,因为这会削弱准确定位的鲁棒性。有效地对抗这些干扰的关键在于在频谱快照中检测异常。一个至关重要的初步应对措施是可靠地对干扰进行分类,并对壅塞装置进行表征和定位。本文介绍了一个扩展的数据集,该数据集由一个低频天线捕获的快照组成,这些快照包括了大规模环境中生成的各种干扰,包括受控的多路径效应。我们的目标是评估机器学习(ML)模型在应对环境变化(如多路径效应)的鲁棒性,评估干扰属性(如干扰类别、带宽和信号功率)的变化准确性,评估对干扰装置定位的准确性,以及在快照输入长度约束下的性能限制。此外,我们还在所有任务中评估了129种不同视觉编码器模型的性能。通过分析Aleatoric和Epistemic不确定性,我们展示了模型的适应性,使其能够泛化到多个方面,从而证明其适用于实际应用。数据集:https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/controlled_low_frequency
arXiv:2408.10774v3 宣告类型: 替换
摘要:大规模语言模型(LLMs)通过增加模型参数的数量,推动人工智能的发展,显著增强了泛化能力和在实际中的新能力。然而,它们在特定下游任务中的表现通常受到这些任务知识边界的影响而受限。因此,引入了微调技术,特别是广为使用的低秩适应(LoRA)方法,以扩大这些任务的知识边界,然而在某些任务上,LoRA 会由于在这些任务上的潜在过拟合而表现不佳。为了解决这一过拟合问题并提高 LoRA 的性能,我们提出了灵活低秩适应(Flexora)方法,以自动和灵活地选择需要微调的最重要层,以在不同的下游任务上实现最佳性能。具体而言,Flexora 首先将这一层选择问题重新定义为一个明确的超参数优化(HPO)问题,然后使用展开微分(UD)方法解决这一问题,并最终根据优化后的超参数选择最有用的层。我们在许多预训练模型和自然语言任务上进行的广泛实验表明,Flexora 能够一致地改进现有的基线方法,这表明在实践中我们的 Flexora 的有效性。此外,我们还提供了深刻的理论结果和许多消融研究,以对我们的 Flexora 提供全面的理解。
arXiv:2408.01584v3 公告类型: 替换
摘要:多智能体学习算法在各种游戏中产生了超人类级别的规划,但在部署的多智能体规划设计方面影响有限。将这些技术应用于多智能体规划的关键瓶颈在于,它们需要经历数亿步的经验。为了在大规模上研究多智能体规划,我们提出了GPUDrive。GPUDrive是一个基于Madrona游戏引擎的GPU加速多智能体模拟器,能够每秒生成超过一百万个模拟步骤。观察、奖励和动力学函数直接用C++编写,允许用户定义复杂且异构的智能体行为,这些行为会被降低到高性能的CUDA。尽管进行了这些低级优化,GPUDrive依然完全通过Python访问,提供了一个无缝且高效的多智能体闭环模拟工作流程。使用GPUDrive,我们在Waymo开放运动数据集上训练强化学习智能体,几分钟内就能实现高效的目标达成,并在数小时内扩展到数千个场景。我们开源了代码和预训练智能体,地址为 https://github.com/Emerge-Lab/gpudrive。
arXiv:2407.15820v2 更新类型: 修订
摘要: 在强化学习框架下形式化一个现实世界问题涉及非平凡的设计选择,例如为学习目标(折扣累积奖励)选择一个折扣因子,这决定了代理的规划时间范围。本工作研究了在底层马尔科夫决策过程结构参数给定的情况下,折扣因子对偏差-方差贸易关系的影响。我们的结果支持缩短规划时间范围可能更有益的观点,特别是在部分可观测的情况下。
arXiv:2407.13399v3 宣布类型: 替换
摘要: 基于人类反馈的强化学习(RLHF)等语言模型对齐方法在语言模型能力方面取得了令人印象深刻的进展,但它们受到一种广泛观察到的现象——过度优化的限制,这种现象会导致语言模型在对齐过程中性能下降。随着模型根据离线奖励模型优化性能,它会过度拟合准确性偏差并偏离数据覆盖的首选响应。为了防止这种分布转移,现有的离线对齐方法广泛采用KL-正则化,但过度优化仍然损害了性能。我们通过理论分析这些经验观察的来源,首先展示了KL-正则化不足以防止过度拟合,然后提出了以下问题:是否存在一种有效的算法,可以证明不会受到过度优化的影响?
我们通过一种新的离线对齐算法——$\chi^2$偏好优化($\chi$PO)来解决这个问题。$\chi$PO仅是对直接偏好优化(DPO;Rafailov等,2023年)进行了一个简单的改动,涉及修改DPO目标中的对数链接函数。尽管这一改动很小,但$\chi$PO通过使用$\chi^2$散度——量化不确定性更加有效的正则化方法——隐含地实施了不确定性面前的悲观原则,并可证明地减轻了过度优化,基于单一策略的集中性取得了样本复杂性保证——这是离线强化学习中的最高标准。$\chi$PO的简洁性及其强大的保证使其成为第一个证明不受过度优化影响的实用且通用的离线对齐算法。
arXiv:2406.05055v2 宣告类型:替换
摘要:大型语言模型(LLMs)在推理任务中,包括数学推理方面表现出令人印象深刻的能力。然而,当前的评估主要集中在精心构建的基准上,并忽视了真实世界推理问题的考虑,这些问题由于缺失或矛盾的条件而被称为不明确的问题。为更深入研究这一问题,我们开发了一个大规模基准,称为缺失和矛盾条件下的问题(PMC),包含超过5000个验证过的不明确数学问题。通过PMC进行的初步实验揭示了现有方法面临的两个挑战:(1)传统方法在解题准确性和拒绝能力之间存在权衡,(2)形式化方法在建模复杂问题时存在困难。为了应对这些挑战,我们开发了变量约束搜索(VCSEARCH),这是一种无需训练的框架,利用形式语言检测不明确的问题,其中结合了变量约束对的搜索策略以提高形式语言的建模能力。广泛的实验表明,VCSEARCH 在不同LLMs中识别不可解问题的准确性至少提高了12%,从而实现了更强的稳健数学推理能力。
arXiv:2405.03524v5 声明类型: 替换
摘要:人工智能(AI)和深度神经网络的进步在视觉处理和文本处理方面取得了显著进展。然而,在AI系统中实现类似人类的推理和可解释性仍然是一个重要挑战。神经符号范式将神经网络与符号系统结合,为更可解释的AI提供了有希望的途径。在此范式下,知识图谱(KG)至关重要,它提供了一种通过相互连接的实体和关系结构化和动态的方法来表示知识,通常表现为三元组(主语,谓语,宾语)。本文探讨了基于KG的神经符号集成的最新进展,分析了它在三个类别中如何支持集成:使用符号知识增强神经网络的推理和可解释性(符号-神经),通过神经网络方法改进符号系统的完整性和准确性(神经-符号),以及促进它们在混合神经-符号集成中的联合应用。本文突出了当前趋势,并提出了未来神经-符号AI研究方向。
arXiv:2403.11734v2 通知类型: 替换
摘要: 基于GNN的方法在不同规划领域学习通用策略受限于 $C_2$ 的表辞性能力,即一阶逻辑带有两个变量和计数。可以通过转换到 $k$-GNNs(对于 $k=3$)来进行解决,其中对象嵌入被三元组嵌入取代。然而,虽然 $3$-GNNs 具有 $C_3$ 的表辞性能力,与受限于 $C_2$ 的 $1$-GNNs 和 $2$-GNNs 不同,它们需要四次方时间的消息交换和三次方空间来存储嵌入,使得它们在实践中不可行。在本项工作中,我们介绍了一种参数化的 R-GNN[$t$](带有参数 $t$)版本的 Relational GNNs。与设计用于在图上执行计算的 GNNs 不同,Relational GNNs 是为了在关系结构上执行计算而设计的。当 $t=\infty$ 时,R-GNN[$t$] 在图上近似 $3$-GNNs,但仅使用二次空间来存储嵌入。对于较低的 $t$ 值,例如 $t=1$ 和 $t=2$,R-GNN[$t$] 通过交换更少的消息实现了较弱的近似,然而有趣的是,这在多个规划领域中往往提供了所需的表达能力。此外,新的 R-GNN[$t$] 架构是原始的 R-GNN 架构,仅应用于输入的适当变换。实验结果表明 R-GNN[$1$] 在性能上的明显提升,同时也超过了同样近似 $3$-GNNs 的 Edge Transformers。
arXiv:2502.13143v1 宣布类型: cross
摘要:空间智能是体感AI的关键组成部分,促使机器人理解并与其环境互动。虽然最近的进步增强了视觉语言模型(VLMs)感知物体位置和位置关系的能力,但它们仍然缺乏精确理解物体方位的能力——这对于涉及精细操作的任务来说是关键要求。解决这一限制不仅需要几何推理,还需要一种表达和直观的方式来表示方位。在此背景下,我们认为自然语言提供了比标准框架更灵活的表示空间,使之特别适合指令跟随的机器人系统。在本文中,我们引入了语义方位的概念,这种概念以一种参考框架无关的方式使用自然语言定义物体方位(例如,USB的“插孔”方向或刀具的“把手”方向)。为了支持这一点,我们构建了OrienText300K数据集,这是一个大规模数据集,包含3D模型,并标注有语义方位,将几何理解与功能性语义联系起来。通过将语义方位整合到视觉语言模型系统中,我们使机器人能够生成同时具有位置和方位约束的抓取动作。在仿真和现实世界中的广泛实验表明,我们的方法显著增强了机器人的操作能力,例如,在Open6DOR上的准确性为48.7%,在SIMPLER上的准确性为74.9%。
arXiv:2502.13142v1 生成类型: cross
摘要:在大规模未标注数据集上预训练的基座模型已经彻底改变了自然语言和计算机视觉领域,展现了出色的泛化能力,从而突显了预训练的重要性。然而,机器人领域在取得类似成功方面一直存在困难,这主要受限于需要昂贵的机器人注释或缺乏有效建模物理世界的表示。在这篇文章中,我们介绍了ARM4R,这是一种利用从人类视频数据中学习的低级4D表示提升机器人预训练模型的自回归机器人模型。具体来说,我们重点关注通过单目深度估计在时间维度上将2D表示提升到3D空间得到的3D点跟踪表示。这些4D表示在点和机器人状态表示之间维持了一种共享的几何结构,直到线性变换,这使得可以从人类视频数据高效地转移到低级机器人控制中。我们的实验表明,ARM4R可以高效地从人类视频数据转移到机器人领域,并且能够在各种机器人环境和配置下一致地提高任务性能。