arXiv 论文列表

作者: Zuyuan Zhang, Tian Lan

arXiv:2502.00633v1 宣布类型: 新颖摘要: 蒙特卡洛树搜索（MCTS）通过使用树的上置信限（UCT）策略在探索和利用之间达到平衡，已被证明在解决复杂规划任务方面非常有效。然而，现有的工作没有考虑基于MCTS的终身规划问题，即代理面临一系列非平稳任务——例如，具有不同转移概率和奖励的任务，这些任务在运营寿命中按顺序出现。本文提出了LiZero，用于基于MCTS的Lipschitz终身规划。我们提出了一种新的适应性UCT（aUCT）的概念，该概念可以在不同任务之间的Lipschitz连续性和蒙特卡洛动作采样的知识置信度的基础上，将知识从源任务转移到新任务的探索和利用。我们从改进的采样效率方面分析了LiZero的加速因子，并通过数据驱动和模型驱动的方法开发了高效算法以在线方式计算aUCT，其采样复杂性和误差界也得到了表征。实验结果表明，在最优奖励的快速收敛（约3到4倍）方面，LiZero在现有的MCTS和终身学习基线方法上具有显著优势。我们的结果突显了LiZero在动态实际环境下的决策和规划方面的潜在优势。

发布时间: 2/4/2025

查看原文

高级弱监督公式探索以支持神经符号数学推理

作者: Yuxuan Wu, Hideki Nakayama

arXiv:2502.00629v1 宣言类型: 新摘要: 在最近几年里，神经符号方法已成为一种流行且强大的方法，通过增强人工智能系统来执行抽象的、逻辑的和定量的推断，同时提高精度和可控性。最近的研究通过利用各种机器学习模型显式或隐式地预测提供符号指令的中间标签，成功地实现了符号推理。然而，这些中间标签并不总是作为训练数据的一部分为每个任务准备，代表性的预训练模型——大型语言模型（LLMs）——也不一致性地生成有效的符号指令，依靠其固有知识。另一方面，现有的工作开发了替代学习技术，允许学习系统自主发现最优的符号指令。然而，当面对较大的搜索空间或更具挑战性的推理问题时，它们的性能也表现出局限性。鉴于此，在本工作中，我们提出了一种先进的神经符号推理系统的实践方法，以从问题输入和最终输出中进行弱监督探索中间标签。我们在数学数据集上的实验从多个角度证明了我们提出方法的有效性。

发布时间: 2/4/2025

查看原文

理解分布转换下的多模态LLM：一种信息论方法

作者: Changdae Oh, Zhen Fang, Shawn Im, Xuefeng Du, Yixuan Li

arXiv:2502.00577v1 公告类型: 新摘要: 多模态大型语言模型（MLLMs）显示出了有前途的能力，但在分布转移的情况下表现不佳，即评估数据与指令调优分布不同。尽管以前的研究提供了实证评价，但我们认为，为了确保MLLMs在现实世界中的安全和可靠应用，有必要建立一个可以表征和量化MLLMs风险的正式框架。从信息论的角度出发，我们提出了首个理论框架，能够量化MLLMs在分布转移下的最大风险。我们框架的核心是引入有效互信息（EMI），这是一种原则性的度量，用于量化输入查询与模型响应的相关性。我们推导了EMI差异的上界，将其与视觉和文本分布差异联系起来。在涵盖61种转移场景的实际基准数据集上的广泛实验，实证验证了我们的理论见解。

发布时间: 2/4/2025

查看原文

谁是MVP？一种针对模块化归因的LLM代理游戏理论评价基准

作者: Yingxuan Yang, Bo Huang, Siyuan Qi, Chao Feng, Haoyi Hu, Yuxuan Zhu, Jinbo Hu, Haoran Zhao, Ziyi He, Xiao Liu, Zongyu Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Yong Yu, Weinan Zhang

arXiv:2502.00510v1 类型: 新论文摘要: 大型语言模型（LLM）代理框架通常采用模块化架构，结合规划、推理、行动执行和反思等组件来处理复杂任务。然而，量化每个模块对整体系统性能的贡献仍然是一个重大挑战，阻碍了优化和可解释性。为了解决这个问题，我们介绍了基于合作博弈论夏普利值的评估框架CapaBench（能力级评估基准），系统地衡量个体模块及其在代理架构中交互的边际影响。通过在所有可能的组合中替换默认模块为测试变体，CapaBench 提供了一种基本原则方法来归因性能贡献。主要贡献包括：(1) 我们首次提出了基于夏普利值的方法来量化 LLM 代理中的能力贡献；(2) 拥有高夏普利值的模块在组合时始终能够带来可预测的性能提升，从而实现有针对性的优化；(3) 我们构建了一个包含超过1,000个条目的多轮数据集，覆盖了多个领域和实际任务场景，以便对代理能力进行全面评估。CapaBench 桥接了组件级评估与整体系统评估之间的差距，为优化模块化 LLM 代理并促进其在复杂的真实场景中的部署提供了可操作的见解。

发布时间: 2/4/2025

查看原文

发现无环过程的直接跟随图模型

作者: Nikita Shaimov, Irina Lomazova, Alexey Mitsyuk

arXiv:2502.00499v1 通告类型: 新摘要: 过程挖掘是指一大类旨在分析和改进过程的方法和方法论的总称。具体而言，旨在从事件日志中推导过程模型的方法属于过程发现的范畴。在这些过程中，未执行的动作不会重复，形成了独特动作的链。然而，由于动作顺序的差异，现有的过程发现方法可能会为本应无环的过程提供包含循环的模型。本文提出了一种新的过程发现算法，可以为无环过程发现无环DFG模型。通过将事件日志分区为提供无环DFG模型的部分，并在避免形成循环的情况下合并它们来发现模型。该算法已在真实和人工事件日志上进行了测试。消除循环提高了模型的视觉清晰度和精度，还允许对模型应用对循环敏感的方法或可视化。

发布时间: 2/4/2025

查看原文

MetaOpenFOAM 2.0：由大型语言模型驱动的自动化CFD模拟和后处理思维链

作者: Yuxuan Chen, Xu Zhu, Hua Zhou, Zhuyin Ren

arXiv:2502.00498v1 宣布类型: 新摘要: 计算流体动力学（CFD）广泛应用于航空航天、能源和生物学，用于模拟流体流动、热传递和化学反应。尽管大型语言模型（LLMs）已经改造了各个领域，但在CFD中的应用仍然有限，特别是在后处理等复杂任务中。为了解决这个问题，我们引入了MetaOpenFOAM 2.0，该模型利用思维链（Chain of Thought, COT）分解和迭代验证，通过自然语言输入增强非专家用户的易用性。在涵盖模拟（流体流动、热传递、燃烧）和后处理（提取、可视化）的新基准测试上，MetaOpenFOAM 2.0取得了6.3/7的可执行性得分和86.9%的成功率，显著优于MetaOpenFOAM 1.0（2.1/7，0%）。此外，它还证明了成本效益，平均每例成本为0.15美元。消融研究证实，由COT驱动的分解和迭代细化在提升任务性能方面发挥了重要作用。此外，扩展律表明，增加COT步骤可以提高准确性，同时增加标记使用量，这与LLM后训练扩展趋势相符。这些结果突显了大型语言模型在自动化工业和研究应用中的CFD工作流程中的潜力。代码可在https://github.com/Terry-cyx/MetaOpenFOAM获取。

发布时间: 2/4/2025

查看原文

用更少实现更多——基于大型语言模型的系统中实现路由策略：一篇扩展性综述

作者: Clovis Varangot-Reille, Christophe Bouvard, Antoine Gourru, Mathieu Ciancone, Marion Schaeffer, Fran\c{c}ois Jacquenet

arXiv:2502.00409v1 宣告类型：新摘要：基于大型语言模型（LLM）的系统，即包含LLM作为中心组件（例如，对话代理）的整体互联元素，通常是静态的且单一的架构，依赖于一个LLM来响应所有用户查询。然而，它们经常需要不同的预处理策略、不同程度的推理或知识。通用的LLM（即GPT-4），在非常大的多主题语料库上进行训练，在各种任务中表现良好。然而，它们需要大量的资金、能源和硬件资源，这可能不适用于基本任务。这意味着对于给定的查询可能会投资不必要的成本。为了克服这个问题，路由机制将用户查询导向最适合的组件，如较小的LLM或特定主题的专家。这种方法可能在提高响应质量的同时减少成本。路由还可以扩展到对话代理架构的其他组件，如最佳嵌入策略的选择。本文探讨了将路由集成到基于LLM的系统中的一些关键考虑因素，重点是资源管理、成本定义和策略选择。我们的主要贡献包括对问题的形式化表述、对现有方法的新型分类强调相关性和资源效率，以及对这些策略与工业实践的比较分析。最后，我们确定了未来研究的关键挑战和方向。

发布时间: 2/4/2025

查看原文

ALU: 有自主性的大语言模型脱敏

作者: Debdeep Sanyal, Murari Mandal

arXiv:2502.00406v1 公告类型: 新摘要: 在大型语言模型（LLMs）中移除或抑制信息是一种期望的功能，对于人工智能监管、法律法规合规、安全性和隐私保护都非常有用。LLM去学习方法旨在按需从LLM中移除信息。当前的LLM去学习方法在平衡去学习效果和实用性方面遇到了困难，因为这两个目标相互竞争。在不假设可以访问模型权重的情况下保持去学习过程的计算可行性是一个被忽视的领域。我们提出了第一个代理LLM去学习（ALU）方法，这是一种多代理、无需重新训练、模型无关的LLM去学习方法，能够在有效去学习的同时保留实用性。我们的ALU框架通过涉及多个LLM代理来实现去学习，每个代理都针对去学习过程中的特定步骤进行设计，框架中的任何代理都不需要更新模型权重。用户可以轻松地按任何顺序请求任何一组去学习实例，ALU能够无缝适应并在实时中进行调整。这在不需对底层LLM模型进行任何更改的情况下实现。通过在已建立的标准基准（TOFU、WMDP、WPU）和破解技术（多射、目标遮蔽、其他语言）上进行广泛的实验，我们证明ALU在当前最先进的方法中作为最robust的LLM去学习框架表现出色，同时发生的常数时间成本较低。我们还强调，与现有的方法相比，ALU在大规模评估中表现出色。具体来说，ALU在多达1000个去学习目标上进行了评估，超过了所有先前提出的LLM去学习方法的评估范围。

发布时间: 2/4/2025

查看原文

基于多车辆协同决策的强化学习差异化奖励方法

作者: Ye Han, Lijun Zhang, Dejian Meng

arXiv:2502.00352v1 Announce Type: 新摘要：强化学习（RL）通过状态-动作-奖励反馈循环展示了优化多车协同驾驶策略的巨大潜力，但仍面临样本效率较低等挑战。本文提出了一种基于稳态过渡系统的差异化奖励方法，通过分析交通流特征将状态过渡梯度信息融入奖励设计，旨在优化多车协同决策中的动作选择和策略学习。所提出的方法在不同自主车辆渗透率下，在MAPPO、MADQN和QMIX等RL算法中得到了性能验证。结果显示，差异化奖励方法显著加速了训练收敛，并在交通效率、安全性和动作合理性方面优于中心化奖励和其他方法。此外，该方法显示出了较强的可扩展性和环境适应性，为复杂交通场景下的多智能体协同决策提供了一种新方法。

发布时间: 2/4/2025

查看原文

ARC基准中位置编码的作用

作者: Guilherme H. Bandeira Costa, Miguel Freire, Arlindo L. Oliveira

arXiv:2502.00174v1 公告类型: 新摘要: Abstraction and Reasoning Corpus 挑战 AI 系统在最少的训练数据下完成抽象推理，这是一个对人类来说直观的任务，但对机器学习模型来说却具有挑战性。利用 CodeT5+ 作为案例研究，我们展示了位置编码限制如何阻碍推理并影响性能。本工作进一步探讨了 transformer 架构中位置编码的作用，突出了其在不同大小和配置模型中的关键影响。通过对几种策略的比较，我们发现虽然 2D 位置编码和旋转位置嵌入提供了竞争力的性能，但在数据受限的场景中，2D 编码表现更优，强调了其在 ARC 任务中的有效性。

发布时间: 2/4/2025

查看原文