arXiv 论文列表

作者: Mislav Balunovi\'c, Jasper Dekoninck, Nikola Jovanovi\'c, Ivo Petrov, Martin Vechev

arXiv:2502.10197v1 类别: 新论文摘要：尽管大型语言模型（LLMs）在数学方面表现出色，但现有的数学基准测试存在显著的局限性。许多基准测试关注具有固定 ground-truth 答案的问题，且经常因为问题过于简单或可以通过猜测或记忆来解决而变得饱和。至关重要的是，这些基准测试仅涵盖了相关数学问题的狭窄子集。为解决这一研究空白，我们引入了 \mc，这是一个包含 126 个来自各种数学竞赛的具有挑战性问题的新基准测试，旨在针对需要构建具有特定属性的数学对象的构造性证明，这是一种广泛遇到的问题类型。这些证明特别适合 LLM 评估，因为可以通过简单的验证来检查解决方案的正确性。我们的自动化验证器还使 MathConstruct 能够生成问题变体，用于评估鲁棒性。最先进的 LLM 只能解决 54% 的 MathConstruct 问题，突显了其复杂性和在 LLM 评估中的重要性。

发布时间: 2/17/2025

查看原文

STMA：一种时空记忆代理用于长期_horizon 体态任务规划

作者: Mingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren

arXiv:2502.10177v1 通知类型: 新摘要: 体现智能的一个关键目标是使代理能够在动态环境中执行长远任务，同时保持稳健的决策和适应能力。为了实现这一目标，我们提出了空间-时间记忆代理(STMA)，这是一种新颖的框架，旨在通过整合空间-时间记忆来增强任务规划和执行。STMA基于三个关键组件构建：(1)一个空间-时间记忆模块，可以实时捕捉历史和环境变化，(2)一个动态知识图谱，便于适应性空间推理，以及(3)一个规划者-评论家机制，可以迭代地细化任务策略。我们在TextWorld环境中对STMA进行了评估，涉及32项任务，在不同复杂程度下的多步骤规划和探索。实验结果表明，与现有最先进的模型相比，STMA在成功率上提高了31.25%，平均分数提高了24.7%。结果突显了空间-时间记忆在提升体现代理的记忆能力方面的有效性。

发布时间: 2/17/2025

查看原文

适应性技能合成的协作多智能体规划

作者: Zhiyuan Li, Wenshuai Zhao, Joni Pajarinen

arXiv:2502.10148v1 宣告类型: 新摘要: 尽管在训练分布式人工智能(AI)方面取得了很大进步，但使用多代理强化学习(MARL)构建合作多代理系统仍面临样本效率、可解释性和可迁移性方面的挑战。与需要与环境进行大量交互的传统基于学习的方法不同，大型语言模型(LLMs)在零样本规划和复杂推理方面表现出色。然而，现有的基于LLM的方法严重依赖于基于文本的观察，并且在处理部分可观测性下的多代理交互的非马尔可夫性质方面存在困难。我们提出了COMPASS，一种新颖的多代理架构，将视觉语言模型(VLMs)与动态技能库和结构化通信相结合，用于分散式闭环决策制定。技能库从演示开始，并通过规划者引导的任务进行演化，以实现适应性策略。COMPASS在部分可观测性下的多跳通信中传播实体信息。在改进的StarCraft多代理挑战(SMACv2)上的评估表明，COMPASS在对称场景中相对于最先进的MARL算法的胜率高出30%。

发布时间: 2/17/2025

查看原文

因果信息优先级化以实现高效的强化学习

作者: Hongye Cao, Fan Feng, Tianpei Yang, Jing Huo, Yang Gao

arXiv:2502.10097v1 宣布类型: 新摘要：当前的强化学习（RL）方法往往效率低下，源于盲目的探索策略忽视了状态、动作和奖励之间的因果关系。尽管最近的因果方法试图解决这个问题，但它们缺乏对状态和动作的奖励导向因果理解的基于事实的建模，从而阻碍了学习效率。为了解决这一问题，我们提出了一种名为因果信息优先级（CIP）的新方法，通过利用因变量MDPs来推断状态和动作在不同维度上的因果关系，从而提高样本效率，使因果信息得以优先化。具体来说，CIP 识别并利用了状态与奖励之间的因果关系，执行反事实数据增强，根据环境的因果理解优先化高影响的状态特征。此外，CIP 结合了一个因果意识的自主能力学习目标，这显著增强了代理执行奖励导向动作的能力，使其在复杂环境中的高效探索更为有效。为了全面评估 CIP 的有效性，我们在 5 个不同的连续控制环境中进行了广泛的实验，涵盖 39 个任务，包括基于像素和稀疏奖励设置的学习运动和操作技能。实验结果表明，CIP 在广泛的情景中一贯优于现有 RL 方法。

发布时间: 2/17/2025

查看原文

基于模型的 reinforcement learning 中通过因果结构学习提高 empircation 收益

作者: Hongye Cao, Fan Feng, Meng Fang, Shaokang Dong, Tianpei Yang, Jing Huo, Yang Gao

arXiv:2502.10077v1 宣告类型: 新颖摘要: 在基于模型的强化学习（MBRL）中，将因果结构整合到动力学模型中为智能体提供了结构化的环境理解，使其能够进行高效的决策。内在动机——赋能，通过最大化未来状态与动作之间的互信息，增强了智能体主动控制环境的能力。我们提出，结合因果理解的赋能可以在MBRL中提高可控性，而增强的赋能增益可以进一步促进因果推理。为了提高学习效率和可控性，我们提出了一个名为因果学习驱动的赋能（ECL，Empowerment through Causal Learning）的新框架，其中具备因果动力学模型意识的智能体实现了以赋能为导向的探索，并优化其因果结构以进行任务学习。具体而言，ECL 的操作首先基于收集的数据训练环境的因果动力学模型。然后，在因果结构下最大化赋能进行探索，同时利用探索过程中收集的数据更新因果动力学模型，使其比没有因果结构的密集动力学模型更具可控性。在下游任务学习中，我们引入了固有的好奇心奖励来平衡因果性，避免过拟合。重要的是，ECL 是方法无关的，并能够整合各种因果发现方法。我们在包括基于像素的任务在内的 6 个环境中，与 3 种因果发现方法结合使用，评估了 ECL 的性能，结果显示其在因果发现、样本效率和渐近性能方面都优于其他因果 MBRL 方法。

发布时间: 2/17/2025

查看原文

基于个性化分辨性根树的无监督实体对齐

作者: Yaming Yang, Zhe Wang, Ziyu Guan, Wei Zhao, Xinyan Huang, Xiaofei He

arXiv:2502.10044v1 宣告类型: 新摘要: 实体对齐 (EA) 是指在不同的知识图谱 (KGs) 之间链接潜在等价实体的过程。大多数现有的 EA 方法都是监督学习的，因为它们需要种子对齐的监督，即手动指定的对齐实体对。最近，有一些 EA 研究尝试摆脱种子对齐的影响。尽管取得了初步进展，但它们仍然存在两个局限性：(1) 由它们的 GNN 类编码器产生的实体嵌入缺乏个性化，因为一些聚合子路径在不同的实体之间共享。(2) 由于缺乏监督信号，它们仍然无法完全缓解候选 KG 之间的分布失真问题。在本文中，我们提出了一种新颖的无监督实体对齐方法，称为 UNEA，以解决上述两个问题。首先，我们为每个实体参数化采样一个以该实体为根的树形邻域，并相应地开发了一种树注意力聚合机制，为每个实体提取一个个性化的嵌入。其次，我们引入了一个辅助任务，即最大化输入和知识图谱编码器输出之间的互信息，以正则化模型并防止分布失真。广泛的经验研究表明，我们的 UNEA 在无监督 EA 任务中达到了新的最先进水平，并且甚至可以超越许多现有的监督 EA 基线方法。

发布时间: 2/17/2025

查看原文

POI-增强器：一种基于LLM的POI语义增强表示学习框架

作者: Jiawei Cheng, Jingyuan Wang, Yichuan Zhang, Jiahao Ji, Yuanshao Zhu, Zhibo Zhang, Xiangyu Zhao

arXiv:2502.10038v1 宣告类型: 新摘要: 地点兴趣（POI）表示学习在处理用户移动数据相关任务中发挥着关键作用。近期研究已表明，通过多模态信息丰富POI表示可以显著提高其任务性能。此前，集成到POI表示中的文本信息通常仅涉及POI类别或签到内容，导致现有的方法在文本特征方面相对较弱。相比之下，大型语言模型（LLMs）在大量文本数据上进行训练后，被发现具有丰富的文本知识。然而，利用这些知识来增强POI表示学习存在两个关键挑战：首先，如何有效地从LLMs中提取POI相关的知识，其次是如何整合提取的信息以增强POI表示。为了解决这些挑战，我们提出了POI-Enhancer，这是一个便携式的框架，利用LLMs来提高经典POI学习模型产生的POI表示。我们首先设计了三种专门的提示，以有效地从LLMs中提取语义信息。然后，双特征对齐模块增强了提取信息的质量，而语义特征融合模块则保持了其完整性。接着，跨注意力融合模块将这些高质量的信息完全适应性地整合到POI表示中，而多视图对比学习进一步将人类可理解的语义信息注入到这些表示中。在三个真实世界的数据集上的广泛实验表明了我们框架的有效性，展示了在所有基线表示上显著的改进。

发布时间: 2/17/2025

查看原文

梦想驾驶：基于解析世界模型的车辆控制

作者: Asen Nachkov, Danda Pani Paudel, Jan-Nico Zaech, Davide Scaramuzza, Luc Van Gool

arXiv:2502.10012v1 宣布类型: 新颖摘要: 可微模拟器最近在训练自主车辆控制器方面显示出巨大的潜力。由于可以对其进行反向传播，它们可以被放置在一个端到端的训练循环中，其已知动力学可以变成策略学习有用的前提知识，从而去除环境的典型黑盒假设。迄今为止，这些系统只被用于训练策略。然而，从它们能够提供的角度来看，这并不是故事的终点。在这里，我们首次使用它们来训练世界模型。具体地，我们提出了三个新的任务设置，使得我们能够学习下一个状态预测器、最优规划器和最优逆状态。与需要当前动作对下一个模拟状态梯度的解析策略梯度(APG)不同，我们提出的设置依赖于当前状态对下一个状态的梯度。我们称这种方法为解析世界模型(AWM)，并展示了它的应用，包括如何在Waymax模拟器中使用它进行规划。除了推动此类模拟器所能实现的极限之外，我们还提供了一种改进的训练配方，在本质上几乎没有额外成本的情况下，相比于基线方法，在大规模Waymo Open Motion数据集上的性能提高了高达12%。

发布时间: 2/17/2025

查看原文

决策信息与大规模语言模型：可解释运筹学的未来

作者: Yansen Zhang, Qingcan Kang, Wing Yin Yu, Hailei Gong, Xiaojin Fu, Xiongwei Han, Tao Zhong, Chen Ma

arXiv:2502.09994v1 公告类型: 新摘要: 运筹学（OR）在许多行业中对于决策至关重要。尽管最近的OR方法通过集成大规模语言模型（LLMs）实现了自动化和效率的显著提升，但在提供有意义的解释方面仍然存在挑战。这种缺乏清晰性的不足引发了对OR应用透明度和可信度的担忧。为了解决这些问题，我们提出了一种综合框架，称为可解释运筹学（EOR），强调伴随优化过程的可操作且易于理解的解释。EOR的核心概念是决策信息，这一概念源自假设情景分析，并专注于评估复杂约束（或参数）变化对决策的影响。具体而言，我们利用二部图来量化OR模型中的变化，并采用LLMs来提高解释能力。此外，我们引入了首个工业基准，以严密评估OR中解释和分析的有效性，为该领域透明度和清晰度建立了一个新的标准。

发布时间: 2/17/2025

查看原文

我的系统提示被使用了吗？大型语言模型提示成员 inference

作者: Roman Levin, Valeriia Cherepanova, Abhimanyu Hans, Avi Schwarzschild, Tom Goldstein

arXiv:2502.09974v1 Announce Type: 新摘要：提示工程已经作为一种强大的技术出现了，用于优化大型语言模型（LLMs）以适应特定的应用程序，从而加快原型开发速度并提高性能，引起了社区保护专有系统提示的兴趣。在本文中，我们通过成员推理的角度探索了提示隐私的一种新视角。我们开发了Prompt Detective，这是一种统计方法，可以可靠地确定给定的系统提示是否被第三方语言模型使用。我们的方法依赖于对两个不同系统提示对应的模型输出分布进行统计测试。通过使用各种语言模型进行广泛的实验，我们展示了Prompt Detective在提示成员推理方面的有效性。我们的工作揭示即使是系统提示的小变动也会影响响应分布，使我们能够以统计显著性验证提示的使用情况。

发布时间: 2/17/2025

查看原文