arXiv:2505.02581v2 通知类型: 替换
摘要: 人工智能 (AI) 对齐问题关注确保包括AGI和ASI在内的AI系统按照人类价值观行动,这一问题带来了深刻的挑战。从狭义AI到AGI再到超人工智能的发展过程中,对控制和存在风险的担忧日益加剧。在此,我们研究是否可以将不可避免的AI不对齐作为一种临时策略,以促进竞争代理之间的动态生态系统,作为引导更多人类价值观一致趋势和降低风险的一种可行路径。我们探讨了不对齐可能如何作为一种平衡机制发挥作用,并应促进与最符合人类利益的代理合作,确保没有单一系统能够失控地占主导地位。我们贡献的主要前提是,完全的AI-人类对齐在图灵完备系统中是数学上不可能的,我们也在本文中提供了这一证明,这一特征随后被AGI和ASI系统继承。我们介绍了基于这种类型的扰动和干预分析的改变观点攻击,并研究代理如何通过合作和竞争来中和或抵制友好的或不友好的AI。我们表明开放模型更具多样性,并且大多数在专有模型中实施的护栏在一定程度上成功地引导和控制了代理的观点和情感变化,尽管我们认为这在神经符号方法中仍然表现出一些正面和负面的结果,即使是最浅层次的。
arXiv:2504.21218v2 通知类型: 更新
摘要:本书介绍了基于信念的形式化建模为结构化语义状态的人工智能的模块化认知架构。信念状态被定义为嵌入在可导航流形中的动态语言表达集合,其中的操作使得同化、抽象化、消除、记忆和内省成为可能。借鉴哲学、认知科学和神经科学,我们发展了一个分层框架,该框架能够产生自我调节的知识代理,具备反思性、目标导向的思维能力。该框架的核心是知识真空:一种语义上无效的认知状态,作为信念空间的概念原点。在此基础上,虚塔作为一种生成结构出现,通过内部表征能力递归构建。这些理论构建旨在能够在符号和神经系统中实现,包括大型语言模型、混合代理和自适应记忆架构。该工作为构建能够以结构化和可解释的方式进行推理、记忆和调节信念的代理提供了基础性支持。
arXiv:2504.20784v2 通告类型: 修订
摘要: 可扩张关系模型,如参数因子图,通过利用对象的不可区分性来实现高效的(可扩张的)推理。在可扩张推理中,使用不可区分对象的代表来进行计算。为了获得关系(即,可扩张)表示,高级颜色传递(ACP)算法是最先进的。然而,ACP算法要求潜在分布,作为基于势的因子分解,必须完全匹配以识别和利用不可区分性。因此,ACP不适用于实际应用,因为在关联对象不可区分的情况下,从数据学习的势不可避免地会发生偏差。为解决这一问题,我们引入了ε-高级颜色传递(ε-ACP)算法,该算法允许潜在势根据超参数ε发生偏差。ε-ACP高效地揭示并利用了非精确的不可区分性。我们证明了ε-ACP引起的近似误差严格有界,并且我们的实验显示,在实践中,这种近似误差接近于零。
arXiv:2504.18039v2 通知类型: 重写
摘要:大规模语言模型(LLM)代理在需要战略推理和社交欺骗的社会推理游戏(SDGs)如狼人游戏中展示了令人印象深刻的性能。然而,当前的方法仍然局限于文本信息,忽视了人类自然使用的至关重要的多模态线索,如面部表情和语音语气。此外,现有的SDG代理主要集中在推断其他玩家的身份,而忽略了如何展示自己或其他玩家的看法。为了解决这些限制,我们使用One Night Ultimate Werewolf(ONUW)作为测试平台,并提出了MultiMind,这是第一个将多模态信息集成到SDG代理中的框架。MultiMind在处理面部表情和语音语气的同时,使用心智理论(ToM)模型来表示每个玩家对其他玩家的信任水平。通过将这种ToM模型与蒙特卡洛树搜索(MCTS)结合,我们的代理识别出能够将自身置于他人最小信任水平的沟通策略。通过在代理对战模拟和与人类玩家的研究中进行全面评估,我们展示了MultiMind在游戏中的优越性能。我们的工作标志着向能够进行类似人类跨多模态领域社会推理的大规模语言模型代理的重大进展。
arXiv:2504.15699v2 宣告类型:替换
摘要:具身智能体在众多领域展现出巨大的潜力,确保其行为安全已成为其广泛应用的基本前提。然而,现有的研究主要集中在通用大型语言模型的安全性上,缺乏专门针对具身智能体的安全基准和输入控制方法。为了填补这一空白,本文提出了一种新的输入控制框架,专门设计以保护具身智能体的安全。该框架涵盖了整个流程,包括分类学定义、数据集策展、调节者架构、模型训练和严格的评估。值得注意的是,我们引入了EAsafetyBench,这是一项精心设计的安全基准,旨在促进并严格评估专门针对具身智能体的调节者。此外,我们还提出了Pinpoint,这是一种创新的提示解耦输入控制方案,利用掩码注意力机制有效隔离和减轻功能提示对控制任务的影响。在多种基准数据集和模型上进行的广泛实验验证了提出方法的可行性和有效性。结果表明,我们的方法在多个基准上的平均检测准确率达到94.58%,超越了现有最先进技术的性能,同时每个实例的调节处理时间仅为0.002秒。
arXiv:2504.00762v4 宣告类型:替换
摘要:本文提出了一种通过扩大测试时计算量来提升大语言模型性能的简单、有效且成本效益高的策略。该策略基于重复采样然后投票的框架,但引入了一个新颖的元素:即使使用较弱的模型,也能利用它们从多样化的训练数据和范式中可能出现的互补优势。通过一致性作为信号,该策略能够动态切换模型。理论分析突显了该策略在效率和性能方面的优势。在六个数据集上的广泛实验表明,该策略不仅优于自我一致性以及最先进的多代理辩论方法,还能显著降低推理成本。此外,ModelSwitch 只需少量可比的大语言模型就能达到最佳性能,并且可以结合验证方法进行扩展,展示了利用多个大语言模型在生成-验证范式中的潜力。
arXiv:2502.07503v4 宣告类型: 替换
摘要:受语言和分形几何最近发现的启发,我们引入了递归推理缩放(RINS)作为对语言和多模态系统推理时间进行扩展的互补插件配方。RINS 是一种特别形式的递归深度,其性能显著优于其他 +55 种变体,包括最近的“全部重复”(RAO)策略(Liu et al., 2024)和潜在递归思考(Geiping et al., 2025)。与先前的工作不同,我们在计算能力匹配的环境下进行了比较,证明在固定的模型大小和训练计算预算下,RINS 显著提高了语言建模性能。RINS 还在纯语言任务之外具有泛化能力,对于 SigLIP-B/16,它在零样本 ImageNet 准确率上提高了 +2%。此外,通过推导数据缩放定律,我们表明 RINS 不仅提高了渐近性能极限,还优化了缩放指数。更重要的是,通过轻量级(线性)适配器(占模型参数的不到 1%)和随机丢弃,RINS 提供了一种无后悔策略,这意味着即使在推理时不应用递归深度,RINS 启发的预训练也能提高语言建模性能。这对应于在计算能力、参数量和推理时间都匹配的环境下提高性能,表明其作为 LLM 预训练中可选组件的潜力!
arXiv:2502.04728v2 宣告类型: 替换
摘要: 解决复杂规划问题需要大型语言模型(LLMs)明确建模状态转换,以避免规则违规、遵守约束并确保最优性——这一任务受到了自然语言固有模糊性的限制。为了克服这种模糊性,我们利用规划领域定义语言(PDDL)作为一种规划抽象,使得能够进行精确和形式化的状态描述。借助PDDL,可以生成一个符号世界模型,在其中经典的搜索算法(如A*)可以无缝应用以找到最优计划。然而,直接使用当前的LLMs生成PDDL领域仍然是一个开放的问题,原因在于缺乏PDDL训练数据。为了解决这一挑战,我们提出通过扩大LLMs在测试时的计算规模来增强其PDDL推理能力,从而能够生成高质量的PDDL领域。具体来说,我们引入了一种简单而有效的算法,首先采用N选最优样本方法以提高初始解的质量,然后通过口头化的机器学习对解进行精巧的细化。我们的方法在生成PDDL领域方面显著优于o1-mini,在两个任务(即从自然语言描述或PDDL问题生成PDDL领域)上达到超过50%的成功率,且不需要额外的训练。由于利用了PDDL作为状态抽象,我们的方法在几乎所有竞赛级别的规划任务上都优于当前最先进的方法。
arXiv:2411.02478v2 提交类型: 替换
摘 要: 尽管人工智能变得越来越聪明,但它的智慧并未跟上步伐。本文探讨了人类智慧的相关知识,并勾勒出其人工智能对应者的愿景。我们分析了人类智慧作为解决超出分析技术范围的棘手问题的一系列策略,包括管理问题的启发式方法(object-level 策略)以及管理对象级策略的元认知策略,如智力谦逊、换位思考或情境适应性(metacognitive 策略)。我们认为,人工智能系统特别难以进行元认知;改进元认知将使人工智能更加适应新环境,更有解释性,更具合作性,并更安全,从而较少与人类用户产生错配的目标。我们讨论了如何衡量明智的人工智能,如何对其进行训练以及如何实现。
arXiv:2403.16101v3 公平性标准类型:替换
摘要:在你的应用场景中,哪些公平性度量是适用的?即使结果符合已建立的公平性度量,也可能存在公平性感知上的不一致。已经有一些基于问卷的调查用来评估公平性度量与人类对公平性的感知之间的关系。然而,这些调查的范围有限,只包括了单一国家内的数百名参与者。在本研究中,我们开展了一项国际调查,以评估不同公平性度量在决策场景中的公众感知。我们分别从中国、法国、日本和美国收集了1000名参与者的回答,共计4000名参与者,以分析公平性度量的偏好。我们的调查包括三个不同的场景,配对了四种公平性度量。这项研究探讨了个人属性与公平性度量选择之间的关系,揭示了国家背景对这些偏好的显著影响。