arXiv 论文列表

作者: Andrzej Kaczmarczyk, Davin Choo, Niclas Boehmer, Milind Tambe, Haifeng Xu

arXiv:2502.04998v1 宣告类型: 新摘要: 我们提出了一个称为顺序容错过程规划(SFIPP)的规划问题。SFIPP 描述了一种在许多顺序多阶段决策问题中常见的奖励结构，只有当所有阶段都成功时，规划才被认为成功。这种奖励结构不同于经典的加性奖励结构，并且在药物/材料发现、安全、以及质量关键型产品设计等重要应用中频繁出现。我们设计了在每个阶段需要在不同行动之间进行选择，而这些行动的成功概率未知时的可证明紧致的在线算法。我们不仅在行动行为确定的基础情况下进行了设计，还在行动结果具有概率性的情况下进行了设计，在这种情况下，我们通过使用多臂赌博机算法有效地平衡了探索以学习和利用以规划之间的关系。在我们的实证评估中，我们展示了我们开发的专门算法，这些算法利用了SFIPP实例的额外结构信息，比我们的通用算法表现更优。

发布时间: 2/10/2025

查看原文

SiriuS: 通过递增推理实现自我提升的多智能体系统

作者: Wanjia Zhao, Mert Yuksekgonul, Shirley Wu, James Zou

arXiv:2502.04780v1 Announce Type: new 摘要：由大型语言模型（LLMs）驱动的多智能体AI系统越来越多地应用于解决复杂任务。然而，这些系统通常依赖于脆弱的、手工设计的提示和启发式方法，使得优化变得困难。优化多智能体系统的关键挑战之一是获取适合的训练数据来训练专门的智能体。为此，我们引入了SiriuS，这是一种自改进、基于推理的多智能体系统优化框架。在我们的方法中，核心是构建经验库：一个高质量推理轨迹的存储库。该库通过保留导致成功结果的推理步骤来构建，为优化多智能体系统提供了稳健的数据集。此外，我们还引入了一种库扩充方法，以改进不成功的轨迹，从而进一步丰富该库。SiriuS 在推理和生物医学问答任务中性能提升了 2.86% 至 21.88%，并在竞争环境中提高了智能体的谈判能力。我们的结果显示，SiriuS 在增强多智能体性能的同时，生成了可重用的数据用于未来的自我纠正和自我玩耍增强。

发布时间: 2/10/2025

查看原文

通过测试时缩放大型语言模型生成符号世界模型

作者: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu

arXiv:2502.04728v1 宣布类型: 新摘要: 解决复杂的规划问题需要大规模语言模型（LLMs）明确地建模状态转换，以避免规则违规、遵守约束条件并确保最优性——这一任务受到了自然语言固有的模糊性的阻碍。为了克服这种模糊性，我们利用规划领域定义语言（PDDL）作为一种规划抽象方法，使得能够构建精确和形式化状态描述。利用PDDL，我们能够生成一个符号世界模型，其中经典的搜索算法（例如A*）可以无缝应用以找到最优计划。然而，直接使用当前的LLMs生成PDDL领域仍然是一个开放的挑战，因为缺乏PDDL训练数据。为了解决这一挑战，我们提出了扩大LLMs的测试时计算规模，以增强其PDDL推理能力，从而能够生成高质量的PDDL领域。具体来说，我们引入了一个简单而有效的算法，首先采用Best-of-N采样方法改进初始解的质量，然后通过口头化的机器学习以细粒度的方式优化解。我们的方法在生成PDDL领域方面优于o1-mini，实现了在两个任务（即从自然语言描述或PDDL问题生成PDDL领域）中超过50%的成功率。这无需额外的训练。通过利用PDDL作为状态抽象，我们的方法在几乎所有竞赛级别的规划任务中都优于当前最先进的方法。

发布时间: 2/10/2025

查看原文

弥合XAI领域的差距——可靠的指标为何对于可解释性和合规性至关重要

作者: Pratinav Seth, Vinay Kumar Sankarapu

arXiv:2502.04695v1 介绍类型: 新闻摘要：这篇立场论文强调了由于缺乏标准化和可靠的指标，可解释人工智能（XAI）的评估存在关键缺口，这降低了其实际价值、可信度，并使其无法满足监管要求。当前的评估方法往往是碎片化的、主观的且有偏见的，这使其容易被操纵，并且复杂化了对复杂模型的评估。一个主要问题是缺乏解释的 ground truth，这使不同 XAI 方法之间的比较变得复杂。为了解决这些挑战，我们呼吁广泛研究开发稳健且适用情境的评估指标。这些指标应具有抗操纵性，相关于每个应用场景，并基于人类判断和实际应用可行性。我们还建议创建特定领域的评估基准，以满足医疗保健和金融等领域用户的和监管的需求。通过鼓励学术界、工业界和监管者之间的合作，我们可以建立既具有灵活性又具一致性的标准，确保 XAI 解释是有意义、可信的，并符合日益变化的监管要求。

发布时间: 2/10/2025

查看原文

在迭代潜在空间策略优化中学习狼人杀中的战略语言代理

作者: Zelai Xu, Wanjun Gu, Chao Yu, Yi Wu, Yu Wang

arXiv:2502.04686v1 公告类型: 新文摘要: 基于大型语言模型（LLM）的代理最近在多个领域中表现出显著的进步，包括开放性对话和多步决策。然而，将这些代理应用于如狼人杀这样的社交推理游戏仍然具有挑战性，因为这种游戏需要战略性决策和自由形式的语言交互。传统的基于反事实遗憾最小化（CFR）或强化学习（RL）的方法通常依赖于预定义的动作空间，这使得它们不适合语言游戏中的无约束文本动作空间。同时，纯粹基于LLM的代理往往受到内在偏见的影响，并且需要庞大且难以获取的精细调优数据集。我们提出了潜空间策略优化（LSPO），这是一种迭代框架，通过首先将自由形式的文本映射到一个离散的潜空间，在该空间中，像CFR和RL这样的方法可以更有效地学习战略性策略。然后，我们将学习到的策略翻译回自然语言对话，这些对话用于通过直接偏好优化（DPO）对LLM进行精细调优。通过交替进行这些阶段，我们的LSPO代理逐步提升了战略推理和语言交流能力。在狼人杀游戏上的实验结果表明，我们的方法在每次迭代中都提高了代理的表现，并且优于现有的狼人杀代理，这突显了其在自由形式语言决策中的潜力。

发布时间: 2/10/2025

查看原文

超human AI的可扩展监督 via 递归自我批判

作者: Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang, XingYu

arXiv:2502.04675v1 类别: 新闻摘要: 随着AI在复杂任务中的能力越来越超过人类的专业水平，当前的对齐技术，包括指令 fine-tuning (SFT) 和基于人类反馈的强化学习 (RLHF)，在确保可靠监督方面面临着根本性的挑战。这些方法依赖于直接的人类评估，在AI输出超过人类认知阈值时变得不可行。为应对这一挑战，我们探讨了两种假设：(1) 对评论进行评论可能比直接评论更容易，将广泛接受的验证比生成更容易的观察扩展到评论领域，因为评论本身就是一种专门形式的生成；(2) 这种难度关系是递归保持的，这表明在直接评估不可行时，执行高阶评论（例如，评论的评论的评论）为更可行的监督途径。为了验证这些假设，我们在多个任务上进行了人类-人类、人类-AI和AI-AI实验。我们的结果展示了支持这些假设的令人鼓舞的证据，并表明递归自我评论是一种具有 scalability（可扩展性）潜力的监督方向。

发布时间: 2/10/2025

查看原文

${\rm P{\small ROOF}W{\small ALA}}$: 多语言证明数据合成与定理证明

作者: Amitayush Thakur, George Tsoukalas, Greg Durrett, Swarat Chaudhuri

arXiv:2502.04671v1 新闻类型: 新摘要: 神经网络在交互式证明助手（ITPs）如Lean和Coq的自动定理证明中展现了巨大的潜力。然而，大多数神经定理证明模型仅限于特定的ITPs，这限制了不同ITPs之间的跨语言迁移机会。我们通过一个多语言证明框架${\rm P{\small ROOF}W{\small ALA}}$来解决这一弱点，该框架允许神经定理证明器与两个成熟的ITPs（Coq和Lean）之间进行标准化的交互。它使得能够收集多语言证明步骤数据——记录ITP状态中证明行动的结果数据——用于训练神经证明器。${\rm P{\small ROOF}W{\small ALA}}$通过高效的并行证明搜索算法允许对模型在不同ITPs和问题领域中的性能进行系统评估。我们展示了${\rm P{\small ROOF}W{\small ALA}}$支持的多语言训练可以实现不同ITPs之间的成功迁移。具体来说，在混合使用${\rm P{\small ROOF}W{\small ALA}}$生成的Coq和Lean数据训练的模型在标准的prove-at-$k$指标上优于仅基于Coq或Lean的数据训练的模型。我们开源了所有代码，包括${\rm ProofWala\; Framework}$的代码，以及${\rm Multilingual\; ITP\; interaction\; framework}$的代码。

发布时间: 2/10/2025

查看原文

代理推理：结合工具进行深入研究的LLM推理

作者: Junde Wu, Jiayuan Zhu, Yuyuan Liu

arXiv:2502.04644v1 宣告类型: 新闻摘要: 我们引入了代理推理框架，通过集成外部工具使用代理，增强了大型语言模型（LLM）的推理能力。与依赖于内部推理的常规基于LLM的推理方法不同，代理推理通过动态地利用网络搜索、代码执行和结构化推理背景记忆来解决需要深入研究和多步逻辑推理的复杂问题。我们的框架引入了Mind Map代理，该代理构建了一个结构化的知识图谱，以跟踪逻辑关系，提高演绎推理能力。此外，网络搜索和编程代理的集成能够实现实时检索和计算分析，增强推理准确性和决策能力。在博士层级的科学推理（GPQA）和特定领域的深度研究任务上的评估表明，我们的方法显著优于现有模型，包括领先的检索增强生成（RAG）系统和闭源LLM。此外，我们的结果表明，代理推理可以提高专家级知识综合、测验时的可扩展性和结构化问题解决能力。代码地址: https://github.com/theworldofagents/Agentic-Reasoning。

发布时间: 2/10/2025

查看原文

基于对比发散的偏好优化：你的奖励模型实际上是NLL估计器

作者: Zhuotong Chen, Fang Liu, Xuan Zhu, Yanjun Qi, Mohammad Ghavamzadeh

arXiv:2502.04567v1 宣布类型: 新增摘要：现有的偏好优化（PO）研究主要集中在基于简单的启发式方法构建成对偏好数据，例如，根据人类（或AI）排名得分最大化受偏好和不受偏好的完成之间的差距。然而，这些启发式方法都没有完全的理论依据。在本文中，我们开发了一种新的PO框架，为有效采样不受偏好的完成提供了理论指导。为了实现这一目标，我们将PO形式化为最小化概率模型的负对数似然（NLL），并提出通过采样策略估计其归一化常数。正如我们将要证明的，这些估计样本可以作为PO中的不受偏好完成。然后，我们选择对比发散（CD）作为采样策略，并提出了一种新的MC-PO算法，该算法应用对比发散（CD）中的蒙特卡洛（MC）核，针对参数化的奖励模型采样困难负例。最后，我们提出了一种OnMC-PO算法，它是MC-PO在在线设置中的扩展。在流行的对齐基准测试中，MC-PO优于现有最先进的baseline，而OnMC-PO进一步提升了性能。

发布时间: 2/10/2025

查看原文

通过序列决策优化统一数据值的选择

作者: Hongliang Chi, Qiong Wu, Zhengyi Zhou, Jonathan Light, Emily Dodwell, Yao Ma

arXiv:2502.04554v1 数据选择类型：新摘要：数据选择已成为数据估值下游应用的关键领域。尽管现有的数据估值方法在选择任务中展示了潜力，但使用数据值进行选择的理论基础及其全部潜力仍 largely 未被探索。在本文中，我们首先证明，应用于选择的数据值可以自然地重新表述为一个顺序决策问题，其中最优数据值可以通过动态规划推导出来。我们展示了这种框架通过近似动态规划将现有的方法（如数据 Shannon）重新统一和解释，特别是在此顺序问题中作为近视奖励函数的近似。此外，我们分析了当基础效用函数表现出单调次模性并带有曲率时，顺序数据选择最优性如何受到影响。为了解决计算上获取最优数据值的挑战，我们提出了一种高效的近似方案，利用学习得到的二分图作为代理效用模型，确保当代理效用模型正确指定和学习时，贪婪选择仍然是最优的。广泛的实验展示了我们方法的有效性，适用于各种数据集。

发布时间: 2/10/2025

查看原文