arXiv 论文列表

作者: Mehrzad Saremi

arXiv:2309.14073v3 公告类型: replace-cross 摘要：在因果推断和因果识别中，找到潜在变量因果模型的参数是核心问题。本文中，我们展示了用于因果推断的现有图形结构在边缘化高斯贝叶斯网络时是不稳定的，并介绍了能够忠实表示高斯贝叶斯网络边缘分布的图形结构。我们首次提出了潜在变量模型参数优化与假设分布族参数空间中前向神经网络训练之间的对偶性。基于这一观察，我们开发了一种算法，根据给定的观测分布对这些图形结构进行参数优化。然后，我们提供了高斯设置下因果效应识别性的条件。我们提出了一种元算法，用于检查因果效应是否可识别。此外，我们奠定了将神经网络与因果模型之间的对偶性从高斯扩展到其他分布的基础。

发布时间: 4/17/2025

查看原文

H2O+：一种改进的混合离线和在线RL框架，用于处理动力学差异

作者: Haoyi Niu, Tianying Ji, Bingqi Liu, Haocheng Zhao, Xiangyu Zhu, Jianying Zheng, Pengfei Huang, Guyue Zhou, Jianming Hu, Xianyuan Zhan

arXiv:2309.12716v2 通知类型: 替换-横跨摘要: 使用强化学习（RL）解决真实世界的复杂任务，而无需高质量的模拟环境或大量的离线数据，这可能会相当具有挑战性。在不完美的模拟环境中训练的在线RL代理可能会遭受严重的模拟到现实问题。虽然离线RL方法可以绕过对模拟器的需求，但通常对离线数据集的大小和质量提出了严格要求。最近出现的混合离线和在线RL提供了一个有吸引力的框架，可以结合有限的离线数据和不完美的模拟器，以实现政策学习的迁移。在本文中，我们开发了一个新的算法，称为H2O+，它提供了极大的灵活性，可以适应各种离线和在线学习方法的选择，同时考虑了真实环境和模拟环境之间的动态差距。通过广泛的模拟和真实世界机器人实验，我们展示了H2O+在高级跨域在线和离线RL算法中具有更好的性能和灵活性。

发布时间: 4/17/2025

查看原文

海姆达尔: 生成验证的测试时缩放

作者: Wenlei Shi, Xing Jin

arXiv:2504.10337v2 宣布类型: 替换摘要: 一个AI系统只能在其能够验证知识本身的情况下创建和维护知识。最近关于长链推理(Long Chain-of-Thought reasoning)的研究已经展示了大规模语言模型(LLMs)在解决竞争性问题方面巨大的潜力，但它们的验证能力仍然很弱且尚未得到充分研究。在本文中，我们提出了Heimdall，这是一种长链推理验证的LLM，能够准确判断解决方案的正确性。通过纯粹的强化学习，我们在竞争性数学问题上的验证准确性从62.5%提升到了94.5%。通过重复采样的扩展，准确性进一步提高到97.5%。通过人工评估，Heimdall展示了令人印象深刻的泛化能力，成功检测了大多数具有挑战性的数学证明中的问题，而这些问题是训练期间未包含在内的。此外，我们提出了悲观验证(Pessimistic Verification)，以扩展Heimdall的功能，使其能够解决更大规模的问题。它会调用Heimdall来判断求解器模型的解决方案，并基于悲观原则，选择具有最少不确定性的最可能正确的解决方案。使用DeepSeek-R1-Distill-Qwen-32B作为求解器模型，悲观验证在AIME2025上的解题准确性在16倍计算预算下从54.2%提升到了70.0%，在更多计算预算下提升到了83.3%。使用更强的求解器Gemini 2.5 Pro，得分达到了93.0%。最后，我们构建了一个自动知识发现系统，这是一个三元系统，一个人提出问题，另一个提供解决方案，第三个验证解决方案。使用NuminaMath的数据合成工作为前两个组件，Heimdall有效地在数据集中识别出了有问题的记录，并揭示了几乎一半的数据存在缺陷，这有趣地与NuminaMath的最近消融研究结果相吻合。

发布时间: 4/17/2025

查看原文

任务内存引擎（TME）：一种带有图意识扩展的结构化记忆框架，用于多步骤LLM代理任务

作者: Ye Ye

arXiv:2504.08525v3 通告类型: 代替摘要：大型语言模型（LLMs）越来越多地被用作执行多步骤任务的自主代理。然而，目前大多数框架无法维持任务状态的结构化理解，通常依赖于线性提示串联或浅层的记忆缓冲区。这导致了脆弱的表现、频繁的幻觉以及较差的长程一致性。在本文中，我们提出了任务记忆引擎（TME），这是一种轻量级且结构化的记忆模块，使用层次化的任务记忆树（TMT）跟踪任务执行。树中的每个节点对应一个任务步骤，存储相关的输入、输出、状态以及子任务关系。我们引入了一种提示合成方法，根据活动节点路径动态生成LLM提示，显著提高了执行一致性和上下文关联性。通过多步骤代理任务的实际案例研究和对比实验，我们展示了TME在最小实现开销下能够获得更好的任务完成准确性和更可解释的行为。核心TME组件的参考实现可在https://github.com/biubiutomato/TME-Agent 获取，其中包含基本示例和结构化记忆集成。虽然当前实现使用基于树的结构，但TME被设计成具有图意识，支持可重用的子步骤、收敛的任务路径和共享的依赖关系。这为未来的基于DAG的内存架构奠定了基础。

发布时间: 4/17/2025

查看原文

独立性在神经符号人工智能中不是问题

作者: H{\aa}kan Karlsson Faronius, Pedro Zuidberg Dos Martires

arXiv:2504.07851v2 通知类型: 修改摘要：神经符号AI的一个流行方法是将神经网络最后一层的输出，例如softmax激活，通过一个稀疏计算图传递，该稀疏计算图编码了一定的逻辑约束，这些逻辑约束是希望在模型中强制执行的。这会诱导出一组随机变量的概率分布，而在许多常用的神经符号AI模型中，这些随机变量通常是条件独立的。在许多情况下，这些条件独立的随机变量被认为是不利的，因为它们的存在与一种名为确定性偏差的现象相关，该现象是指系统会学习确定性地偏好解空间中的一个有效解，而忽略其他解。我们提供了证据反驳这一结论，并展示了确定性偏差现象是不正确应用神经符号AI的结果。

发布时间: 4/17/2025

查看原文

多任务工具台：通过相关和动态任务评估基于大语言模型的代理的鲁棒性

作者: Peijie Yu, Yifan Yang, Jinjian Li, Zelong Zhang, Haorui Wang, Xiao Feng, Feng Zhang

arXiv:2504.02623v3 通告类型: 替换摘要: 大型语言模型（LLMs）由于其高级的理解和规划能力，显示出作为工具调用代理的强大潜力。用户越来越依赖基于LLM的代理通过迭代交互来解决复杂的任务。然而，现有的基准测试主要在单一任务场景中访问代理，无法捕捉现实世界的复杂性。为解决这一问题，我们提出了多任务工具基准。在该基准中，每个测试案例包含多个相互关联的任务。这种设计要求代理能够动态适应不断变化的需求。此外，提出的基准测试探究了在固定任务数量下的所有可能的任务切换模式。具体来说，我们提出了一个多代理数据生成框架来构建基准。我们还提出了一种新的方法，使用动态决策树来评估代理决策的准确性和效率。针对多种开源和封闭源的LLM的实验揭示了影响代理鲁棒性的关键因素，并为工具调用社会提供了可操作的见解。

发布时间: 4/17/2025

查看原文

UI-R1: 通过强化学习提升GUI代理的动作预测

作者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Han Xiao, Shuai Ren, Guanjing Xiong, Hongsheng Li

arXiv:2503.21620v3 通知类型: 替换摘要：近期的 DeepSeek-R1 通过强化学习（RL）和基于规则的奖励展示了大型语言模型（LLMs）中推理能力的涌现。尽管它在语言模型中取得了成功，但在多模态领域，特别是在图形用户界面（GUI）代理任务中，其应用仍然被广泛探索。为了解决这一问题，我们提出了 UI-R1，这是第一个框架，旨在探索基于规则的 RL 如何增强多模态大型语言模型（MLLMs）在 GUI 动作预测任务中的推理能力。具体而言，UI-R1 引入了一种新颖的基于规则的动作奖励，使得模型可以通过基于策略的算法（如 Group Relative Policy Optimization, GRPO）进行优化。为高效训练，我们精心整理了一个包含 136 个具有挑战性的任务的小型但高质量的数据集，这些任务涵盖了移动设备上的五种常见动作类型。实验结果表明，我们提出的 UI-R1-3B 在领域内（ID）和领域外（OOD）任务中相对于基模型（即 Qwen2.5-VL-3B）都取得了显著的改进，在 ScreenSpot 上的平均准确率提高了 22.1%，在 ScreenSpot-Pro 上提高了 6.0%，在 ANDROIDCONTROL 上提高了 12.7%。此外，UI-R1-3B 在使用监督微调（SFT）在 76,000 个样本上训练的大模型（例如 OS-Atlas-7B）的性能方面表现出竞争力。这些结果强调了基于规则的强化学习在提高 GUI 理解和控制方面的潜力，为该领域的未来研究铺平了道路。代码网址: https://github.com/lll6gg/UI-R1.

发布时间: 4/17/2025

查看原文

具有因果保证的高效模型评估计算框架

作者: Hedong Yan

arXiv:2503.21138v2 宣布类型: 替换摘要: 为了降低模型实验评估的成本，我们引入了一种预测和决策模型的计算评估理论：构建评估模型以加速评估过程。我们证明了给定评估模型的泛化错误和泛化因果效应错误的上界。我们还证明了所估计因果效应与部署后的评估指标之间的一致性和效率。为了学习评估模型，我们提出了一种元学习器来处理异构评估主题空间问题。与现有的评估方法相比，我们的（条件）评估模型在12个场景中（包括个体药物、科学模拟、社会实验、商业活动和量子交易）减少了24.1%-99.0%的评估误差，评估时间比实验或模拟减少了3到7个数量级。

发布时间: 4/17/2025

查看原文

SuperARC：基于递归压缩和算法概率原理的无偏测试，用于狭义、通用和超级人工智能

作者: Alberto Hern\'andez-Espinosa, Luan Ozelim, Felipe S. Abrah\~ao, Hector Zenil

arXiv:2503.16743v2 声明类型: 替换摘要: 我们引入了一种基于算法概率的开放性测试，可以在评估前沿模型在人工智能（AGI）和超人工智能（ASI）声明方面的量化评估时避免基准污染。与其它测试不同，这种测试不依赖于统计压缩方法（如GZIP或LZW），这些方法更接近于香农熵而非柯尔莫哥洛夫复杂性，并且无法进行超越简单模式匹配的测试。该测试挑战了与AI，特别是大型语言模型（LLM）相关的智力本质特征，如在逆问题（从观察中生成新知识）中进行合成和模型创建。我们argue认为，基于模型抽象和推论（最优贝叶斯“推理”）的度量，用于预测“规划”的框架，可以为测试智能提供稳健的框架，包括自然智能（人类和动物）、窄范AI、AGI和ASI。我们发现，LLM模型版本往往由于仅通过记忆变得脆弱且逐步改进，其进展很可能由训练数据量的大小驱动。结果与基于算法概率和柯尔莫哥洛夫复杂性的原理的混合神经符号方法进行比较。该方法在短二进制序列的概念验证测试中优于LLM。我们证明了压缩等同于系统预测能力，并且二者之间呈直接比例关系。也就是说，如果系统能够更好地预测，它就能更好地压缩；如果它能够更好地压缩，那么它就能更好地预测。我们的结果加强了对LLM基本局限性的怀疑，揭示了它们是优化人类语言控制感知的系统。

发布时间: 4/17/2025

查看原文

人类与AI决策中的信息价值

作者: Ziyang Guo, Yifan Wu, Jason Hartline, Jessica Hullman

arXiv:2502.06152v3 宣告类型: 修改摘要：在决策任务中，人类和AI模型等多个代理经常被配对，期望实现互补性能，从而使得两个代理的结合性能优于任一单独的代理。然而，在不了解每个代理采用的具体信息和策略的情况下，提高人类-AI团队的性能通常是困难的。我们提供了一种决策理论框架，用于刻画信息的价值——进而，为代理更好地利用可用信息提供机会——在AI辅助决策工作流程中。我们展示了该框架在模型选择、人类-AI性能的实证评估以及解释设计中的使用。我们提出了一种新型基于信息的解释技术，将SHAP（基于重要性的解释）适应为一种信息价值的解释方法。

发布时间: 4/17/2025

查看原文