arXiv 论文列表

作者: Daqian Shao, Thomas Kleine Buening, Marta Kwiatkowska

arXiv:2502.07656v1 因果模仿学习 (IL) 类型：交叉摘要：我们提出了一种通用且统一的框架，用于处理具有隐藏混杂变量的因果模仿学习 (IL)，该框架涵盖了一些文献中已存在的多种混杂 IL 设置。我们的框架考虑了两种类型的隐藏混杂变量：(a) 专家能观测到的混杂变量，这些变量因此影响了专家的行为策略；(b) 对专家和 IL 算法都隐藏的混杂噪声。为了增加灵活性，我们还引入了混杂噪声的时间范围以及随时间变化的专家可观测的隐藏变量。我们通过利用轨迹历史作为工具变量来学习历史依赖性策略，证明了在我们的框架中可以将因果 IL 归结为条件矩约束 (CMRs)。我们提出了一种名为 DML-IL 的新型算法，该算法使用工具变量回归解决这些 CMRs 并学习策略。我们为 DML-IL 提供了一个模仿差距的上界，该上界以以前的结果为特殊情况。在具有连续状态-动作空间和多个 MuJoCo 任务的小型环境中的实验评估表明，DML-IL 在因果 IL 算法中表现优异。

发布时间: 2/12/2025

查看原文

哥德尔证明器：开源自动定理证明的前沿模型

作者: Yong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin

arXiv:2502.07640v1 声称类型: cross 摘要: 我们介绍了一种开源的大语言模型 (LLM)，名为 Goedel-Prover，在数学问题的自动化形式证明生成方面达到了目前的最高水平 (SOTA)。这一领域的主要挑战在于形式化的数学命题和证明的稀缺性，我们通过以下方式应对这一挑战。我们训练声明形式化器，将 Numina 中的自然语言数学问题翻译成形式语言 (Lean 4)，从而创建了一个包含 164 万条形式化声明的数据集。大语言模型用于验证这些形式化声明是否准确地保留了原始自然语言问题的内容。然后，我们通过训练一系列证明器迭代构建了大量形式化证明的数据集。每个证明器成功证明了前一个证明器无法证明的许多声明，并将这些新证明添加到下一个证明器的训练集中。最终的证明器在全证明生成方面优于所有现有的开源模型。在 miniF2F 基准上，它以 57.6% 的成功率 (Pass@32) 超越了之前最好的开源模型 7.6%。在 PutnamBench 上，Goedel-Prover 成功解决了 7 个问题 (Pass@512)，在排行榜上排名第一。此外，它为 Lean Workbook 问题生成了 29,700 个形式化证明，几乎是早期工作生成的 15,700 个证明的两倍。

发布时间: 2/12/2025

查看原文

分布式价值分解网络与网络化代理

作者: Guilherme S. Varela, Alberto Sardinha, Francisco S. Melo

arXiv:2502.07635v1 宣告类型: cross 摘要：我们研究了在部分可观测性条件下分布式训练的问题，其中协同多代理强化学习代理（MARL）最大化期望累积联合奖励。我们提出了一种分布式价值分解网络（DVDN），它可以生成一个可以分解为个体代理Q函数的联合Q函数。虽然原始的价值分解网络依赖于集中式训练，但我们的方法适用于集中式训练不可能的领域，这些代理必须通过在分散的方式与物理环境互动并与其同伴进行通信来学习。DVDN通过局部估计共享目标来克服集中式训练的需求。我们分别为异构代理和同构代理设置贡献了两种创新算法，DVDN和DVDN（GT）。实验结果表明，尽管在通信过程中存在信息丢失，这两种算法的性能与价值分解网络相当，在三个标准环境中的十个MARL任务中得到了验证。

发布时间: 2/12/2025

查看原文

双思维世界模型与长期想象

作者: Lingyi Wang, Rashed Shelim, Walid Saad, Naren Ramakrishnan

arXiv:2502.07591v1 通知类型: 交叉摘要：世界模型中的想象对于使代理能够在样本高效的方式下学习远期策略至关重要。现有的基于递归状态空间模型(RSSM)的世界模型依赖于单步统计推理来捕捉环境动力学，因此由于预测误差的累积，它们无法执行长期想象任务。受人类认知的双过程理论的启发，我们提出了一种新颖的双思维世界模型(DMWM)框架，以逻辑推理为基础，以便通过逻辑一致性来实现想象。DMWM 由两个组成部分组成：一个基于RSSM 的直观地处理状态转换的System 1 (RSSM-S1) 组件，以及一个通过分层深入逻辑推理来引导想象过程的逻辑集成神经网络(System 2, LINN-S2) 组件。系统间反馈机制设计旨在确保想象过程遵循真实环境的逻辑规则。该框架在 DMControl 套件中的基准任务上进行了评估。广泛的经验结果表明，在逻辑连贯性、试次效率、数据效率和长期想象方面，所提出的框架在最先进的世界模型中表现出显著的改进。

发布时间: 2/12/2025

查看原文

我们无法使用现有词汇来理解AI

作者: John Hewitt, Robert Geirhos, Been Kim

arXiv:2502.07586v1 宣告类型: cross 摘要：本文认为，为了理解AI，我们不能依赖现有的人类词汇。相反，我们应该努力开发新词：能够准确表达我们希望教给机器的人类概念，或者我们需要学习的机器概念。我们从人类和机器有不同的概念这一前提是开始的。这意味着可解释性可以被表述为一个交流问题：人类必须能够参考和控制机器概念，并将人类概念传达给机器。通过开发新词来创建一个共享的人机语言，我们认为这可以解决这一交流问题。成功的新兴词汇实现了有用的抽象程度：既不过于详细，因此可以在多种情境下重复使用，又不过于高级，因此能够传达精确的信息。作为一个概念验证，我们演示了“长度新词”如何使控制LLM响应长度成为可能，而“多样性新词”则允许更变化的样本。综合起来，我们认为我们不能用现有的词汇来理解AI，通过扩展词汇来创造通过新词更好地控制和理解机器的机会。

发布时间: 2/12/2025

查看原文

通过模型自我探索实现自动化能力发现

作者: Cong Lu, Shengran Hu, Jeff Clune

arXiv:2502.07577v1 Announce Type: cross 摘要：基础模型已经成为通用助手，通过在大规模网络数据上进行训练，它们在众多领域中显示出多样化的功能。在任何新模型中精确地描述其全部能力谱和潜在风险的大部分内容仍是一项挑战。现有的评估方法往往需要大量的人力投入，并且为了设计更难的挑战以应对更强的模型，要求越来越高。我们提出了一种自动能力发现（ACD）框架，该框架指定一个基础模型作为科学家，系统地提出开放性的任务以探测主题模型（可能是本身）的能力。通过结合前沿模型与开放性领域中的想法，ACD 自动且系统地揭示了主题模型中既出乎意料的能力以及失败之处。我们展示了 ACD 在一系列基础模型（包括 GPT、Claude 和 Llama 系列）上的应用，展示了它能够自动揭示单个团队难以发现的成千上万种能力。我们进一步通过广泛的问卷调查验证了该方法的自动评分，发现模型生成的评估与人类评估之间存在高度一致。利用基础模型既能够创建任务又能够自我评估的能力，ACD 是朝着可扩展且自动化的新型 AI 系统评估方向迈出的重要一步。所有代码和评估日志均可在 https://github.com/conglu1997/ACD 开放获取。

发布时间: 2/12/2025

查看原文

LASP-2：重思线性注意力及其实Hybrid序列并行ism

作者: Weigao Sun, Disen Lan, Yiran Zhong, Xiaoye Qu, Yu Cheng

arXiv:2502.07563v1 宣布类型: 交叉摘要: 线性序列建模方法，例如线性注意力，提供了诸如线性时间训练和常量内存推理等优势。然而，现有的序列并行（SP）方法要么未针对线性注意力的正确积计算特性进行优化，要么使用环形通信策略，这导致较低的计算并行性，限制了这些方法在分布式系统中处理较长序列的可扩展性。在本文中，我们引入了LASP-2，这是一种新的SP方法，在使用非常长输入序列训练线性注意力转换器模型时，可以增强通信和计算并行性。与之前的LASP工作相比，LASP-2重新考虑了线性注意力层上SP所需的最小通信需求，重新组织了LASP的整个通信-计算工作流程。这样一来，仅需在中间内存状态上进行一次AllGather集体通信，其规模与序列长度无关，从而在通信和计算并行性以及它们的重叠方面取得了显著改进。此外，我们通过将类似的通信重设计应用于标准注意力模块，将LASP-2扩展为LASP-2H，为混合模型提供了一种高效的SP解决方案，这些混合模型结合了线性和标准注意力层。对Linear-Llama3模型的评估，这是一种使用线性注意力替代标准注意力的Llama3变体，证明了LASP-2和LASP-2H的有效性。具体而言，在64个GPU上使用序列长度2048K时，LASP-2相对于LASP实现了15.2%的训练速度提升，相对于环注意力实现了36.6%的提升。代码作为一部分发布于：https://github.com/OpenSparseLLMs/Linear-MoE。

发布时间: 2/12/2025

查看原文

LoRP-TTS：低秩个性化文本到语音

作者: {\L}ukasz Bondaruk, Jakub Kubiak

arXiv:2502.07562v1 宣布类型: cross 摘要：语音合成模型将书面文本转换为自然音质的音频。早期的模型只能处理单一的说话者，而最近的进步导致开发出了零样本系统，可以从广泛的说话者中生成逼真的语音，这些说话者的语音可以用作额外的提示。然而，它们仍然难以模仿质量明显不同于训练数据集的非录音室质量的样本。在这项工作中，我们展示了利用低秩适应（LoRA）可以使我们成功地利用嘈杂环境下单个自发语音记录作为提示。这种方法通过最多提高30个基点提升说话者相似性，同时保持内容和自然度。它代表了朝着创建真正多样的语音语料库迈出的重要一步，这对于所有语音相关的任务至关重要。

发布时间: 2/12/2025

查看原文

无监督的 Emergent Communication 翻译

作者: Ido Levy, Orr Paradise, Boaz Carmeli, Ron Meir, Shafi Goldwasser, Yonatan Belinkov

arXiv:2502.07552v1 交叉类型公告摘要： Emergent Communication (EC) 提供了一种独特的机会，让我们了解当智能体被训练以共同实现共享目标时自发形成的语言系统。然而，解释 EC 并评估其与自然语言 (NL) 的关系存在困难。本研究利用无监督神经机器翻译 (UNMT) 技术来解析在具有不同任务复杂性的引用游戏中形成的 EC，这些游戏受到环境语义多样性的影响。我们的研究结果表明，UNMT 有可能翻译这些 EC，这表明由语义多样性特征的任务复杂性增强了 EC 的可翻译性，而具有受限语义变化的更高任务复杂性则表现出实用性的 EC，尽管这种 EC 解释起来更具挑战性，但仍适用于翻译。这项研究是我们所知的首次尝试在没有平行数据辅助的情况下翻译 EC。

发布时间: 2/12/2025

查看原文

基于超图的轨迹用户链接模型

作者: Fengjie Chang, Xinning Zhu, Zheng Hu, Yang Qin

arXiv:2502.07549v1 交叉公告类型：摘要：轨迹用户链接（TUL），即将匿名轨迹与其生成者用户进行连接，对建模人类移动起到了关键作用。尽管在这一领域取得了显著进展，但现有研究主要忽视了高阶的轨迹间关系，这些关系通过多个轨迹在不同兴趣点（POI）交汇时出现的多地点共现模式，展现了多个轨迹间的复杂关联。此外，现有研究还忽视了不同轨迹受POI影响的变量程度，以及由于用户活动水平和签到频率的差异导致的用户类别不平衡问题。为了应对这些局限性，我们提出了一种基于超图的多视角轨迹用户链接模型（HGTUL）。我们的模型从关系和时空两个视角学习轨迹表示：（1）通过构建轨迹超图来捕捉多个轨迹之间的高阶关联，并利用超图注意网络来学习不同轨迹受POI影响的动态程度；（2）通过将轨迹的时空信息整合到顺序编码器中，来建模轨迹的时空特征。此外，我们设计了一种数据平衡方法，有效解决了用户类别不平衡问题，并通过实验证明了其在TUL中的重要性。在三个真实世界的数据集上进行的广泛实验表明，HGTUL优于最先进的基线模型，在ACC@1和宏F1指标上分别提高了2.57%~20.09%和5.68%~26.00%。

发布时间: 2/12/2025

查看原文