在多智能体强化学习(MARL)中,参数共享通常被用来提高样本效率。然而,流行的全参数共享方法往往会导致智能体之间策略的同质化,这可能会限制从策略多样性中获得的性能优势。为了解决这一关键限制,我们引入了**万花筒**,这是一种新颖的自适应部分参数共享方案,它在保持高样本效率的同时促进策略异质性。具体来说,万花筒维护一组公共参数以及多组不同的、可学习的掩码,用于不同的智能体,用于指示参数的共享。它通过鼓励这些掩码之间的差异来促进策略网络之间的多样性,而不会牺牲参数共享的效率。这种设计允许万花筒在各种环境中动态平衡高样本效率和广泛的策略表示能力,有效地弥合了全参数共享和非参数共享之间的差距。我们进一步将万花筒扩展到演员-评论家算法中的评论家集合,这有助于提高价值估计。我们在包括多智能体粒子环境、多智能体 MuJoCo 和星际争霸多智能体挑战 v2 在内的广泛环境中进行的实证评估表明,与现有的参数共享方法相比,万花筒具有优越的性能,展示了其在 MARL 中提高性能的潜力。代码已在 \url{https://github.com/LXXXXR/Kaleidoscope} 上公开发布。
开放词汇多目标跟踪 (OVMOT) 代表着一种新的关键挑战,涉及在视频中检测和跟踪各种目标类别,包括已知类别(基本类别)和未知类别(新类别)。这个问题融合了开放词汇目标检测 (OVD) 和多目标跟踪 (MOT) 的复杂性。现有的 OVMOT 方法通常将 OVD 和 MOT 方法作为独立模块合并,主要从图像中心的视角来解决这个问题。在本文中,我们提出了 VOVTrack,这是一种新方法,它将与 MOT 相关的对象状态和视频中心训练相结合,从视频目标跟踪的角度来解决这一挑战。首先,我们考虑了跟踪过程中对象的跟踪相关状态,并提出了一种新的提示引导注意力机制,以更准确地定位和分类(检测)随时间变化的对象。随后,我们利用原始视频数据(无需标注)进行训练,通过制定自监督对象相似性学习技术来促进时间对象关联(跟踪)。实验结果表明,VOVTrack 优于现有方法,使其成为开放词汇跟踪任务的最新解决方案。
在大型语言模型 (LLM) 的训练之前,精确估计其下游性能对于指导其开发过程至关重要。缩放定律分析利用一系列显著更小的采样语言模型 (LM) 的统计数据来预测目标 LLM 的性能。对于下游性能预测,关键挑战在于 LLM 中出现的超越任务特定计算阈值的涌现能力。在这项工作中,我们专注于预训练损失作为一种更具计算效率的性能估计指标。我们的两阶段方法首先包括估计一个函数,该函数使用一系列采样模型将计算资源(例如,FLOPs)映射到预训练损失,然后在关键的“涌现阶段”之后将预训练损失映射到下游任务性能。在初步实验中,该 FLP 解决方案使用一系列高达 3B 的采样 LM,准确地预测了具有 7B 和 13B 参数的 LLM 的性能,分别实现了 5% 和 10% 的误差范围,显著优于 FLOPs 到性能的方法。这促使 FLP-M,一种用于性能预测的基本方法,该方法解决了在预训练期间将来自多个来源的数据集集成的实际需求,特别是将通用语料库与代码数据混合以准确地表示常见的必要性。FLP-M 扩展了幂律分析函数,以根据跨数据源的 FLOPs 预测特定领域的预训练损失,并使用两层神经网络来模拟多个特定领域损失与下游性能之间的非线性关系。通过利用在特定比例上训练的 3B LLM 和一系列更小的采样 LM,FLP-M 可以有效地预测 3B 和 7B LLM 在各种数据混合中的性能,对于大多数基准而言,误差范围在 10% 以内。
许多最先进的生成式人工智能 (GenAI) 系统越来越容易出现拟人化行为,即生成被认为是人类一样的输出。虽然这导致学者们越来越担心这种拟人化人工智能系统可能带来的负面影响,但人工智能开发、部署和使用中的拟人化现象仍然被严重忽视、研究不足和定义不清。在本篇观点文章中,我们认为,如果不研究拟人化人工智能的社会影响,我们就无法全面了解生成式人工智能的社会影响,并为此提出行动号召。
空中视觉与语言导航 (VLN) 是一项新任务,使无人机 (UAV) 能够通过自然语言指令和视觉线索在户外环境中导航。由于户外空中场景中复杂的空间关系,这项任务仍然具有挑战性。本文针对空中 VLN 任务提出了一种端到端的零样本框架,其中大型语言模型 (LLM) 被用作我们的动作预测代理。具体来说,我们开发了一种新颖的语义-拓扑-度量表示 (STMR) 来增强 LLM 的空间推理能力。这是通过提取和将与指令相关的路标语义掩码投影到包含周围路标位置信息的俯视图中实现的。此外,该地图被转换为矩阵表示,其中距离度量作为文本提示传递给 LLM,以便根据指令进行动作预测。在真实和模拟环境中进行的实验成功证明了我们方法的有效性和鲁棒性,在 AerialVLN-S 数据集上,Oracle 成功率 (OSR) 分别提高了 15.9% 和 12.5%(绝对值)。
自动驾驶汽车(AVs)的快速发展有望通过提高安全性、效率来彻底改变交通运输。然而,确保其在各种现实世界条件下的可靠性仍然是一个重大挑战,特别是由于称为边缘情况的罕见和意外情况。尽管存在许多用于检测边缘情况的方法,但明显缺乏全面综述系统地回顾这些技术。本文填补了这一空白,对边缘情况检测和评估方法进行了实用、分层回顾和系统分类。我们的分类结构分两层:首先,根据 AV 模块对检测方法进行分类,包括与感知相关的和与轨迹相关的边缘情况;其次,根据这些技术背后的基本方法和理论。我们通过引入一个名为“知识驱动”方法的新类别扩展了这种分类法,该类别在文献中被很大程度上忽略。此外,我们回顾了边缘情况检测方法和识别边缘情况的评估技术和指标。据我们所知,这是第一个全面涵盖所有 AV 子系统中的边缘情况检测方法、讨论知识驱动的边缘情况并探讨检测方法评估技术的调查。这种结构化和多方面的分析旨在促进 AV 的目标研究和模块化测试。此外,通过识别各种方法的优势和劣势并讨论挑战和未来方向,本调查旨在帮助 AV 开发人员、研究人员和政策制定者通过有效的边缘情况检测来提高自动驾驶 (AD) 系统的安全性、可靠性。
联邦推荐系统在保护用户隐私方面发挥着至关重要的作用。然而,现有的方法主要依赖于基于ID的项目嵌入,忽略了项目丰富的多模态信息。为了解决这一局限性,我们提出了一种名为FedMR的新型联邦多模态推荐系统。FedMR利用服务器端的基础模型来编码与项目相关的多模态数据,例如图像和文本。为了应对用户偏好差异导致的数据异质性挑战,FedMR在客户端引入了混合特征融合模块。该模块根据用户交互历史动态调整不同融合策略的权重,生成个性化的项目嵌入,捕捉细粒度的用户偏好。FedMR与现有的基于ID的联邦推荐系统兼容,在不修改原始框架的情况下提高了它们的性能。我们在四个真实世界多模态推荐数据集上的实验证明了FedMR的有效性。我们的代码可在https://anonymous.4open.science/r/FedMR获取。
图卷积网络 (GCN) 已成为图学习任务中强大的模型,在各个领域展现出令人瞩目的性能。尽管其经验成功显而易见,但从理论角度理解其本质能力的需求日益增长。现有的理论研究主要集中在单层 GCN 的分析上,而对深度 GCN 的稳定性和泛化能力进行全面的理论探索仍然有限。在本文中,我们通过深入研究深度 GCN 的稳定性和泛化特性来弥合这一差距,旨在通过严格表征相关上限来提供有价值的见解。我们的理论结果表明,深度 GCN 的稳定性和泛化能力受某些关键因素的影响,例如图滤波器算子的最大绝对特征值和网络的深度。我们的理论研究有助于更深入地理解深度 GCN 的稳定性和泛化特性,可能为开发更可靠和性能更好的模型铺平道路。
近年来,从人类演示中学习模仿取得了进展,在教授机器人操作技能方面展现出巨大潜力。为了进一步扩大训练数据集,最近的研究开始使用便携式数据采集设备,无需实际的机器人硬件。然而,由于数据采集过程中缺乏机器人反馈,数据质量严重依赖于用户专业知识,而且许多设备仅限于特定机器人形式。我们提出 ARCap,这是一种便携式数据采集系统,它通过增强现实 (AR) 提供视觉反馈,并提供触觉警告来指导用户收集高质量的演示。通过广泛的用户研究,我们证明 ARCap 使新手用户能够收集可执行的机器人数据,这些数据与机器人运动学相匹配,并避免与场景发生碰撞。利用从 ARCap 收集的数据,机器人可以执行具有挑战性的任务,例如在杂乱环境中的操作和长范围跨机器人形式的操作。ARCap 完全开源且易于校准;所有组件均由现成的产品组成。更多详细信息和结果可在我们的网站上找到:https://stanford-tml.github.io/ARCap
预训练已在提升下游任务的准确性和加速收敛方面展现出显著优势,但这些优势背后的确切原因仍不清楚。为此,我们提出从全新的博弈论视角定量且明确地解释预训练对下游任务的影响,这也为深度神经网络 (DNN) 的学习行为提供了新的见解。具体而言,我们提取并量化了预训练模型编码的知识,并进一步跟踪此类知识在微调过程中的变化。有趣的是,我们发现只有少量预训练模型的知识被保留用于下游任务的推断。然而,这种保留的知识对于从头开始训练的模型来说非常难学。因此,借助这种专门学习的、有用的知识,从预训练微调的模型通常比从头开始训练的模型表现更好。此外,我们发现预训练可以引导微调模型更直接、更快地学习下游任务的目标知识,这解释了微调模型收敛速度更快的原因。