arXiv:2501.19266v1 宣告类型: 新闻
摘要: 人类反馈强化学习 (RLHF) 是使大语言模型 (LLMs) 与人类价值观对齐的标准方法,但已知无法满足一些直观上 desirable 的性质,例如尊重大多数人的偏好 [ge2024axioms]。为了解决这些问题,我们提出使用一种称为“最大彩票”的概率社会选择规则来替代 RLHF。我们展示了这样一种对齐技术家族,即纳什人类反馈强化学习 (NLHF) [munos2023nash] 及其变体,近似于最大彩票的结果,从而继承了其有益的特性。
我们通过实验确认,我们提出的方法比标准的 RLHF 更 robust 地处理与偏好相关的情况,包括支持大多数人的偏好,提供处理偏好数据中非传递性的方式,并且对无关选择具有鲁棒性。这导致了更好地纳入人类价值观并尊重人类意图的系统。
arXiv:2501.19256v1 通知类型: 新
摘要: 解释是人类的基本过程。理解解释的目标和受众至关重要,但现有可解释强化学习(XRL)的工作通常不咨询人类在评估中的意见。即使他们这样做,他们通常还是会依赖于主观度量标准,如信心或理解,这些度量标准只能告知研究人员用户的观点,而不能反映特定问题的实际有效性。本文呼吁研究者使用基于可观察和可行动的行为的客观人类度量标准进行解释评估,以构建更具可重复性、可比较性和基于知识的研究。为此,我们整理、描述并比较了几种客观评估方法,用于应用解释来调试智能体行为和支持人类-智能体团队合作,并使用一个新颖的基于网格的环境来说明我们提出的评估方法。我们讨论了主观和客观度量标准如何相互补充,以提供全面验证,并讨论了未来工作需要利用标准化基准进行测试,以使不同研究之间的比较更为广泛。
arXiv:2501.19245v1 宣告类型: 新增
摘要: 强化学习(RL)提供了一种通用方法来建模和训练包括人机交互场景在内的AI代理。在本文中,我们提出了SHARPIE(共享人机强化学习平台,用于交互实验),以应对在RL代理和人类之间进行实验所需的通用框架的需要。其模块化设计包括一个针对RL环境和算法库的多功能包装器、一个面向参与者的网页界面、日志工具、在流行云平台和参与者招募平台上的部署。它使研究人员能够研究人类与RL代理交互相关的广泛研究问题,包括交互奖励规范和学习、从人类反馈学习、动作委派、偏好引出、用户建模以及人机协同等工作。该平台基于一个通用的人机交互界面,旨在在RL在人类情境中的研究领域实现标准化。
arXiv:2501.19206v1 宣告类型: 新
摘要: 近期日益 sophisticated 的网络攻击促使需要具备强大和弹性自主网络防御(ACD)代理。鉴于网络攻击战术、技术和程序(TTPs)的多样性,学习能够返回可泛化的策略的方法是有必要的。同时,ACD代理的保障仍然是一个开放的挑战。我们通过 实证博弈论分析的方法,利用原则性的双方oracle (DO)算法来解决这两种挑战,这种方法是通过对手迭代学习针对对方策略的 (近似的) 最佳响应。这是一个对于自主网络操作代理来说计算上昂贵的过程。在这项工作中,我们介绍并评估了一种理论上合理且基于潜力的奖励塑造方法,以加速这一过程。此外,鉴于开源的 ACD-DRL方法的不断增加,我们扩展了DO形式化方法,以允许多个响应oracle (MRO),从而提供了一种综合评估ACD方法的框架。
arXiv:2501.19143v1 通告类型: 新增
摘要: 作为人工智能的基础,机器感知面临着由对抗幻象带来的基本威胁。这些对抗攻击主要表现为两种形式:演绎幻象,其中针对受害模型的一般决策逻辑精心设计特定的刺激;归纳幻象,其中受害模型的一般决策逻辑由特定的刺激所塑造。前者利用模型的决策边界来创建一个刺激,在应用该刺激时,干扰其决策过程。后者则强化了模型中的条件反射,在学习阶段嵌入后门,在受到特定刺激触发时,导致异常行为。对抗幻象的多样性要求有一个统一的防御框架,以解决各种攻击形式下的漏洞。在本研究中,我们基于模仿游戏的理念提出了一种去幻象范式。模仿游戏的核心是一个由链式推理引导的多模态生成代理,该代理观察、内化并重建样本的语义核心,而不追求将样本恢复到其原始状态的经典方法。作为概念验证,我们使用一个多模态生成对话代理进行了实验模拟,并在多种攻击场景下评估了该方法。
arXiv:2501.19112v1 宣告类型: 新
摘要:本文从逻辑模态的角度对欧洲AI法案进行了全面分析,旨在为其正式表示做准备,例如,在逻辑-多元知识工程框架和方法论(LogiKEy)内进行表示。LogiKEy 开发了基于形式方法的规范推理计算工具,采用高阶逻辑(HOL)作为统合元逻辑,通过浅层语义嵌入将不同的逻辑进行整合。这一整合过程由一种配有多种自动化定理证明器的证明助手工具Isabelle/HOL 支持。文中讨论了AI法案中的模态及其适合表示的逻辑。为这些逻辑中的一部分创建了HOL中的嵌入,并利用这些嵌入对样本段落进行编码。初始实验评估了这些嵌入对于自动化推理的适用性,并突出了通往更可靠的推理能力过程中的一些关键挑战。
arXiv:2501.19095v1 宣告类型: 新
摘要:知识图谱(Knowledge Graphs,KGs)以实体(节点)和关系的形式存储人类知识,并在各种应用中广泛使用。知识图嵌入是一种有效的方法,可以解决知识发现、链接预测和推理等任务。这通常通过为所有或部分实体分配和学习嵌入表来实现。由于这一方法需要按实体数量线性扩展计算资源,因此在具有数百万节点的真实世界KG中学习嵌入模型可能是计算上不可行的。为了解决这个问题,我们的模型PathE仅为关系(通常比实体少几个数量级)分配嵌入表,并且所需参数少于之前参数高效方法的25%。我们不存储实体嵌入,而是通过利用多个实体-关系路径来为三元组中的 individual 实体提供上下文,从而学习计算它们。在四个基准测试上评估,PathE在关系预测上实现了最先进的性能,并在路径丰富的知识图谱上保持了在链接预测方面的竞争力,同时使用消费级硬件进行训练。我们进行了消融实验来测试我们的设计选择,并分析了模型对关键超参数的敏感性。对于常见于实际应用中的关系多样且连接良好的知识图谱,PathE具有高效和成本效益。
arXiv:2501.18924v1 Announce Type: 新
摘要:大型语言模型(LLMs)向人工超人类智能(ASI)的演变依赖于数据再现这一循环过程,在此过程中,模型生成、整理并重新训练于新颖数据,以完善其能力。然而,当前的方法存在陷入数据再现陷阱的风险:在固定的人类生成的数据分布中形成闭环优化输出,会导致停滞不前,因为模型只是重新组合现有的知识,而不是探索新的前沿领域。在本文中,我们提出了语言游戏作为一种扩展数据再现的途径,通过三种机制打破这一循环:(1)**角色流动性**,通过多Agent系统在任务间动态调整角色,增强数据的多样性和覆盖率;(2)**奖励多样性**,嵌入多种反馈标准,以驱动复杂智能行为;以及(3)**规则可塑性**,迭代进化交互约束,以促进学习能力,从而注入持续的创新。通过将语言游戏扩展到全球社会技术生态系统中,人机共生进化生成无限的数据流,推动开放式探索。这种框架重新定义了数据再现,不再是一个封闭的循环,而是一个推动超人类智能的动力引擎。
arXiv:2501.18817v1 宣告类型: 新
摘要:近期大型语言模型(LLMs)演绎能力的进步显示了LLMs解决简单规划任务的能力有所增强。然而,只要提高演绎能力的动力是模型的大小和复杂性,与运行这些模型相关的财务和计算成本也将增加。这一趋势提出了持续可访问性的问题,并且表明这些改进是否将以与模型继续增长的规模和成本相同的速度推进。我们提出了两种增强较少资源密集型LLMs演绎能力的方法。(1)通过一个更资源密集型的LLM为它们提供一个适用于给定领域的通用策略,(2)利用它们的成本效益,通过迭代提示这些模型纠正它们提出的解决方案中的错误。我们从规划和数学推理任务中的实验结果证明,这些方法将较少资源密集型LLMs的性能提升到了与其更资源密集型对应物相当的水平,但成本却仅为它们的一小部分。此外,我们表明,在我们的实验中利用通用策略将较少资源密集型模型的成本平均降低了近30%。
arXiv:2501.18784v1 宣告类型: 新
摘要: 领域无关的启发式方法长期以来一直是AI规划的核心,提供了广泛适用的通用解决方案,而无需针对特定领域进行工程设计。然而,大型语言模型(LLMs)的出现为生成针对特定规划问题定制的启发式方法提供了机会,这可能挑战领域无关性作为严格设计原则的必要性。在本文中,我们探讨了使用LLMs从用通用编程语言编写的任务描述(表示为后续生成器和目标测试)中自动推导规划启发式方法。我们研究了领域特定的LLM生成启发式方法与传统领域无关方法在计算效率和可解释性方面的权衡。我们的实验表明,LLMs可以生成在一些标准IPC领域中达到最佳性能的启发式方法,以及它们解决缺乏适当规划领域定义语言(PDDL)表示的问题的能力。我们讨论了这些结果是否标志着范式的转变,以及它们如何能够补充现有方法。