arXiv 论文列表

作者: Dillon Z. Chen, Rostislav Hor\v{c}\'ik, Gustav \v{S}\'ir

自动规划是一种声明式问题求解方式，近年来引起了机器学习 (ML) 社区的关注。ML 被应用于规划，要么作为测试架构“推理能力”的一种方式，要么更实用地尝试通过学习到的领域知识来扩展求解器。在实践中，规划问题很容易解决，但难以优化。然而，ML 方法仍然难以解决许多对人类和经典规划器来说通常很容易的问题。因此，本文提出了一种新的 ML 方法，允许用户通过 Datalog 规则指定背景知识 (BK)，以一种集成的方式指导学习和规划过程。通过结合 BK，我们的方法避免了从头开始重新学习如何解决问题的需要，而是将学习重点放在计划质量优化上。使用 BK 的实验表明，我们的方法成功地扩展并学习了如何从不到 5 秒内生成的小型训练数据中高效地规划高质量的解决方案。

发布时间: 10/11/2024

查看原文

执行算术：将大型语言模型微调为图灵机

作者: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu

大型语言模型 (LLM) 在各种自然语言处理和推理任务中展现出非凡的能力。然而，它们在算术这一基础领域的表现仍然不尽如人意。在处理算术任务时，LLM 往往会记住特定的例子，而不是学习底层的计算逻辑，这限制了它们对新问题的泛化能力。本文提出了一种可组合算术执行框架 (CAEF)，它使 LLM 能够通过模拟图灵机来学习执行逐步计算，从而获得对计算逻辑的真正理解。此外，该框架具有高度可扩展性，允许组合学习到的运算符，从而显著降低学习复杂运算符的难度。在我们的评估中，CAEF 在 LLaMA 3.1-8B 模型上的七种常见数学运算中实现了近 100% 的准确率，有效地支持了包含高达 100 位数的操作数的计算，而在某些情况下，GPT-4o 在此级别上表现明显不足。

发布时间: 10/11/2024

查看原文

幂集

作者: Joao Marques-Silva (ICREA, University of Lleida, Spain), Carlos Menc\'ia (University of Oviedo, Spain), Ra\'ul Menc\'ia (University of Oviedo, Spain)

投票权衡量自 20 世纪 40 年代中期以来一直是广泛研究的主题。最近，在其他领域也研究了类似的相对重要性衡量指标，这些领域包括不一致的知识库、论证中的攻击强度、数据库管理分析中的不同问题以及可解释性。本文表明，所有这些例子都是计算更一般问题域的重要性衡量指标的实例。然后，本文表明，只要给定一个将该参考集的子集进行划分的单调递增谓词，就可以计算任何参考集的最佳已知重要性衡量指标。因此，本文还证明了可以在多个领域设计重要性衡量指标，其中一些领域尚未对此类指标进行研究或提出。此外，本文重点介绍了与计算重要性衡量指标相关的几个研究方向。

发布时间: 10/11/2024

查看原文

基于泛化与适应的系统 2 推理

作者: Sejin Kim, Sundong Kim

尽管在特定任务的应用方面取得了重大进展，但当前的模型在深度推理、通用性和适应性方面仍然面临挑战——这些是实现通用人工智能 (AGI) 所需的系统 2 推理的关键组成部分。尽管程序合成、语言模型和 Transformer 等方法很有前景，但这些方法往往无法超越其训练数据进行泛化，也无法适应新任务，限制了它们执行类人推理的能力。本文探讨了现有方法在实现高级系统 2 推理方面的局限性，并强调了通用性和适应性对于 AGI 的重要性。此外，我们提出了四个关键的研究方向来解决这些差距：（1）从动作序列中学习人类意图，（2）结合符号模型和神经模型，（3）针对陌生环境的元学习，以及（4）强化学习以进行多步推理。通过这些方向，我们旨在提高泛化和适应能力，使计算模型更接近 AGI 所需的推理能力。

发布时间: 10/11/2024

查看原文

基于同理心在混合动机博弈中学习平衡利他主义和自私

作者: Fanqi Kong, Yizhe Huang, Song-Chun Zhu, Siyuan Qi, Xue Feng

现实世界中的多智能体场景通常涉及混合动机，需要能够自我保护以防止潜在剥削的利他型智能体。然而，现有的方法往往难以同时实现这两个目标。在本文中，基于移情反应是由智能体之间推断出的社会关系调制的这一观点，我们提出了 LASE（基于移情的利他主义和自私学习），这是一种分布式多智能体强化学习算法，它通过馈赠来促进利他型合作，同时避免在混合动机博弈中被其他智能体剥削。LASE 将其奖励的一部分分配给合作玩家作为礼物，这种分配会根据社会关系动态调整——一个通过反事实推理评估合作玩家友好程度的指标。特别是，社会关系通过将当前联合行动的估计 Q 函数与一个将合作玩家行动边缘化的反事实基线进行比较来衡量每个合作玩家，其中其行动分布由一个视角转换模块推断得出。在空间和时间上扩展的混合动机博弈中进行了全面的实验，证明了 LASE 能够在不损害公平性的前提下促进群体合作，以及其适应各种互动型合作玩家策略的能力。

发布时间: 10/11/2024

查看原文

知识图谱上的多样化自适应负采样

作者: Ran Liu, Zhongzhou Liu, Xiaoli Li, Hao Wu, Yuan Fang

在知识图谱嵌入中，除了用于训练的正三元组（即知识图谱中的事实）外，负三元组对模型性能也具有直接影响。现实中，由于知识图谱稀疏且不完整，负三元组通常缺乏明确的标签，因此通常通过各种采样策略（例如，随机替换正三元组中的实体）获得。理想的采样负三元组应该具有足够的 информативность，以帮助模型更好地训练。然而，现有方法在采样过程中往往忽略了多样性和自适应性，这会损害负三元组的 информативность。因此，我们提出了一种名为 DANS 的生成对抗方法，用于知识图谱上的多样化和自适应负采样。DANS 配备了一个双向生成器，通过两条路径生成更多样化的负三元组，以及一个自适应机制，通过对不同实体和关系进行全局生成器定位来生成更细粒度的示例。一方面，双向生成器通过更多样化的负面示例提高整体 информативность；另一方面，自适应机制通过更细粒度的采样提高单个样本的 информативность。最后，我们在三个基准知识图谱上评估了 DANS 的性能，通过定量和定性实验证明了其有效性。

发布时间: 10/11/2024

查看原文

COMMA：一个通信型多模态多智能体基准测试

作者: Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu

大型基础模型构建的多模态智能体取得了快速进展，但它们在协作任务中基于语言的智能体间通信的潜力却被很大程度上忽视了。这一疏忽暴露了我们在理解其在现实世界部署中的有效性方面的一个关键差距，尤其是在与人类进行交流时。现有的智能体基准测试未能解决智能体间通信和协作的关键方面，特别是在智能体对信息的访问权不平等且必须共同努力才能完成超出个人能力范围的任务的情况下。为了填补这一空白，我们引入了一个新的基准测试，旨在通过语言交流来评估多模态多智能体系统的协作性能。我们的基准测试包含各种场景，对通信协作环境中的四类智能体能力进行了全面评估。通过使用开源和闭源模型测试智能体间和智能体与人类之间的协作，我们的发现揭示了最先进模型的令人惊讶的弱点，包括 GPT-4o 等专有模型。这些模型在智能体间协作中难以超越简单的随机智能体基线，只有在人类参与的情况下才能超越随机基线。

发布时间: 10/11/2024

查看原文

WALL-E：基于规则学习的世界对齐提升世界模型驱动的 LLM 智能体

作者: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang

大型语言模型（LLM）是否可以直接作为基于模型的智能体的强大世界模型？虽然LLM的先验知识与指定环境的动力学之间存在差距，但我们的研究表明，通过将LLM与部署环境对齐可以弥合这些差距，这种“世界对齐”可以通过在LLM上进行规则学习来有效地实现。鉴于LLM丰富的先验知识，只需少量额外的规则就足以使LLM预测与指定环境的动力学相一致。为此，我们提出了一种神经符号方法，通过LLM以无梯度的方式学习这些规则，通过基于代理探索的轨迹和世界模型预测的比较来诱导、更新和修剪规则。由此产生的世界模型由LLM和学习到的规则组成。我们的具身LLM代理“WALL-E”建立在模型预测控制（MPC）的基础上。通过根据精确的世界模型优化前瞻动作，MPC显着提高了探索和学习效率。与现有的LLM代理相比，WALL-E的推理只需要几个主要规则，而不是将冗长的缓冲轨迹包含在LLM输入中。在Minecraft和ALFWorld的开放世界挑战中，WALL-E比现有方法取得了更高的成功率，同时在重新规划时间和用于推理的令牌数量方面成本更低。在Minecraft中，WALL-E的成功率比基线高出15-30%，同时重新规划轮次减少了8-20轮，仅使用了60-80%的令牌。在ALFWorld中，其成功率仅在6次迭代后就跃升至95%的新纪录。

发布时间: 10/11/2024

查看原文

利用预训练基础模型促进强化学习中的内在动机

作者: Alain Andres, Javier Del Ser

大型语言模型 (LLMs) 已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/11/2024

查看原文

生成式 AI 的认知能力：与人类基准的比较分析

作者: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff

越来越多的研究关注追踪通用智能基础模型的能力。本研究以人类在韦氏成人智力量表 (WAIS-IV) 上的表现为基准，对领先的大型语言模型和视觉语言模型进行了评估。WAIS-IV 是一种全面、人口规范化的评估，用于评估人类认知和智力能力的基础，重点关注言语理解 (VCI)、工作记忆 (WMI) 和知觉推理 (PRI) 领域。大多数模型在存储、检索和操作诸如任意字母和数字序列等标记方面展现出非凡的能力，与人类人口规范能力相比，工作记忆指数 (WMI) 的表现高于或等于 99.5%。言语理解指数 (VCI) 衡量对获取信息的检索以及对单词含义及其相互关系的语言理解，也表现出始终如一地达到或超过 98% 的表现。尽管这些模型具有广泛优势，但我们观察到多模态模型在知觉推理指数 (PRI; 范围 0.1-10% 百分位数) 上始终表现不佳，表明其在解释和推理视觉信息方面存在严重缺陷。更小、更旧的模型版本始终表现更差，表明训练数据、参数数量和微调方面的进步正在导致认知能力的显著提高。

发布时间: 10/11/2024

查看原文