鲁棒部分可观测马尔可夫决策过程(鲁棒POMDP)扩展了经典的POMDP,通过所谓的“不确定性集”来处理转移和观测概率上的额外不确定性。鲁棒POMDP的策略不仅需要基于记忆来处理部分可观测性,还需要对模型不确定性具有鲁棒性,以应对不确定性集中最坏情况下的实例。我们提出了悲观迭代规划(PIP)框架,该框架为鲁棒POMDP寻找鲁棒的基于记忆的策略。PIP在两个主要步骤之间交替进行:(1)通过不确定性集中最坏情况下的概率实例选择对抗性(非鲁棒)POMDP;(2)为该对抗性POMDP计算有限状态控制器(FSC)。我们在原始鲁棒POMDP上评估了此FSC的性能,并将此评估用于步骤(1)中选择下一个对抗性POMDP。在PIP中,我们提出了rFSCNet算法。在每次迭代中,rFSCNet通过使用针对对抗性POMDP优化的监督策略,通过循环神经网络找到一个FSC。在四个基准环境中的实证评估表明,该方法在鲁棒性方面优于几种基线方法,并且与最先进的鲁棒POMDP求解器相比具有竞争力。
强化学习 (RL) 广泛应用于自主系统 (AS),因为它能够在运行时学习,无需环境模型或预定义动作。然而,大多数 RL 在 AS 中的应用,例如基于 Q 学习的应用,只能优化一个目标,这使得在多目标系统中必须将多个目标组合成一个具有预定义权重的目标函数。许多多目标强化学习 (MORL) 技术已经存在,但它们主要应用于 RL 基准测试,而不是现实世界的 AS 系统。在这项工作中,我们使用一种名为深度 W 学习 (DWN) 的 MORL 技术,并将其应用于新兴 Web 服务器范例(一个自适应服务器),以找到运行时性能优化的最佳配置。我们将 DWN 与两种单目标优化实现进行比较:{\epsilon}-贪婪算法和深度 Q 网络。我们初步的评估表明,DWN 可以同时优化多个目标,并与 DQN 和 {\epsilon}-贪婪方法获得类似的结果,在某些指标上表现更好,并且避免了将多个目标组合成单一效用函数带来的问题。
由大型语言模型驱动的多智能体系统在各种任务中展现出强大的能力,这得益于专家智能体的协作,每个智能体专注于特定领域。然而,当智能体分别部署时,存在恶意用户引入恶意智能体的风险,这些恶意智能体生成不正确或不相关的结果,这些结果过于隐蔽,无法被其他非专业智能体识别。因此,本文研究了两个重要问题:(1)在不同的下游任务中,各种多智能体系统结构(例如,A→B→C,A↔B↔C)在恶意智能体下的弹性如何?(2)如何提高系统弹性以防御恶意智能体?为了模拟恶意智能体,我们设计了两种方法,AutoTransform 和 AutoInject,将任何智能体转换为恶意智能体,同时保留其功能完整性。我们在四个下游多智能体系统任务上进行了全面实验,分别是代码生成、数学问题、翻译和文本评估。结果表明,“层次化”多智能体结构,即 A→(B↔C),表现出优异的弹性,性能下降最低为 23.6%,相比之下,其他两种结构的性能下降分别为 46.4% 和 49.8%。此外,我们证明了通过两种防御方法可以提高多智能体系统弹性,这些方法分别是:引入一种机制让每个智能体可以挑战其他智能体的输出,或者引入一个额外的智能体来审查和纠正消息,可以增强系统弹性。我们的代码和数据可在 https://github.com/CUHK-ARISE/MAS-Resilience 上获取。
在城市环境中,自动驾驶汽车(AV)的决策制定由于与周围车辆的动态交互而具有内在挑战性。为了安全规划,AV 必须了解场景中各种时空交互的权重。当代工作使用庞大的 Transformer 架构来主要对轨迹预测进行交互编码,导致计算复杂度增加。为了解决这个问题,在不影响时空理解和性能的情况下,我们提出了简单的深度注意力驱动的强化学习(DADRL)框架,该框架动态地分配和整合周围车辆的重要性到自我 RL 驱动的决策制定过程中。我们引入了一种以 AV 为中心的时空注意力编码 (STAE) 机制,用于学习与不同周围车辆的动态交互。为了理解地图和路线上下文,我们使用上下文编码器从上下文地图中提取特征。时空表示与上下文编码相结合,提供了一个全面的状态表示。由此产生的模型使用 Soft Actor Critic (SAC) 算法进行训练。我们在没有交通信号灯的 SMARTS 城市基准场景中评估了所提出的框架,以证明 DADRL 优于最近的最新方法。此外,消融研究强调了上下文编码器和时空注意力编码器在实现卓越性能方面的重要性。
尽管最近提出了几种用于卫星遥感影像的基础模型,但它们无法解决实际/运营应用中的主要挑战。事实上,不考虑数据的频谱、空间和时间维度以及不规则或未对齐的时间采样的嵌入对于大多数现实世界应用来说几乎没有用处。因此,我们提出了一种对齐的 Sits 编码器 (ALISE),这是一种新方法,它利用不规则和未对齐的 SITS 的空间、频谱和时间维度,同时生成对齐的潜在表示。与目前可用于 SITS 的 SSL 模型不同,ALISE 结合了灵活的查询机制,将 SITS 投影到一个共同的学习时间投影空间中。此外,由于采用了多视图框架,我们探索了将实例判别与掩蔽自动编码任务集成到 SITS 中。所生成表示的质量通过三个下游任务进行评估:作物分割 (PASTIS)、土地覆盖分割 (MultiSenGE) 和一个新的作物变化检测数据集。此外,变化检测任务是在无监督的情况下进行的。结果表明,使用对齐的表示比以前的 SSL 方法更有效,适用于线性探测分割任务。
尽管将大型语言模型 (LLMs) 与人类偏好对齐的学习取得了显著成功,但将这些模型与不同的用户偏好对齐,在保留先前知识方面提出了进一步的挑战。本文考察了个性化偏好优化对 LLMs 的影响,揭示了知识损失的程度随偏好异质性的变化而显著不同。尽管以前的方法利用了参考模型和策略模型之间的 KL 约束,但我们观察到它们在面对个性化偏好时无法维持一般知识和对齐。为此,我们引入了基于基础的偏好优化 (BAPO),这是一种简单但有效的方法,它利用参考模型的初始响应来减轻遗忘,同时适应个性化对齐。BAPO 有效地适应了不同的用户偏好,同时对全局知识或一般对齐的影响最小。我们的实验证明了 BAPO 在各种设置中的有效性。
当前工具学习研究主要集中于从众多选项中选择最有效的工具,而往往忽略了成本效益,这是人类解决问题中至关重要的因素。本文通过预测工具的性能和完成特定任务所需的关联成本,来解决同类工具的选择问题。然后,我们以成本效益的方式将查询分配给最佳工具。我们的实验结果表明,与强大的基线方法相比,我们的方法在更低的成本下获得了更高的性能。
人工智能领域充斥着优化方法。本文将重点转移到开发建模方法,旨在让我们更接近通用人工智能。为此,我们提出了一种将现实解释为信息源的新方法,该方法随后被转化为能够捕获和表示此类信息的计算框架。该框架能够从仅处理空间分布式表示的简单基元开始,构建经典认知架构的元素,如长期记忆和工作记忆。此外,它以无缝可扩展的分层方式实现了这种垂直性。
世界模型正逐渐应用于各个领域,从基本的环境模拟到复杂的场景构建。然而,现有的模型主要针对特定领域的 状态和动作进行训练,并且局限于单模态状态表示。本文介绍了 WorldGPT,一个基于多模态大型语言模型 (MLLM) 的通用世界模型。WorldGPT 通过分析来自各个领域的数百万视频,获得了对世界动态的理解。为了进一步增强 WorldGPT 在特定场景和长期任务中的能力,我们将它与一种新颖的认知架构相结合,该架构结合了记忆卸载、知识检索和上下文反思。在评估方面,我们构建了 WorldNet,一个包含各种现实生活场景的多模态状态转换预测基准。在 WorldNet 上进行的评估直接证明了 WorldGPT 能够准确地模拟状态转换模式,证实了它在理解和预测复杂场景动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力,帮助多模态代理通过有效地合成多模态指令实例来泛化到不熟悉的领域,这些实例被证明与真实数据一样可靠,可用于微调目的。该项目可在 \url{https://github.com/DCDmllm/WorldGPT} 上获取。
基于人工智能的自主系统日益兴起,由于其行为或决策可能产生的负面影响,引发了人们的担忧和不安。这些系统必须设计成符合其运行的人类环境。为此,Townsend 等人 (2022) 提出了 SLEEC(社会、法律、伦理、同理心或文化)规则的概念,旨在促进基于人工智能的自主系统应遵循的规则的制定、验证和执行。他们提出了一种方法来引出这些规则,并让哲学家、律师、领域专家等用自然语言来制定这些规则。为了使这些规则能够在人工智能系统中有效使用,有必要将这些规则系统地翻译成支持自动推理的形式语言。在本研究中,我们首先对 SLEEC 规则模式进行语言分析,这证明了将 SLEEC 规则翻译成经典逻辑的合理性。然后,我们研究了关于 SLEEC 规则的推理的计算复杂性,并展示了如何使用逻辑编程框架在实际场景中实现 SLEEC 规则。结果是一个易于应用的策略,用于实现符合以 SLEEC 规则表达的规范的人工智能系统。