本研究比较了将强化学习算法扩展到具有选项的部分可观察马尔可夫决策过程 (POMDP) 的方法。选项的一种观点是作为时间扩展的动作,这可以通过允许代理保留超出策略上下文窗口的历史信息来实现。虽然选项分配可以使用启发式方法和手工设计的目标来处理,但在没有显式监督的情况下学习时间一致的选项和相关的子策略是一个挑战。提出了两种算法,PPOEM 和 SOAP,并对其进行了深入研究以解决这个问题。PPOEM 应用前向-后向算法(用于隐马尔可夫模型)来优化选项增强策略的预期回报。然而,这种学习方法在策略内滚动时不稳定。由于选项分配针对离线序列进行优化,其中整个剧集都可用,因此它也不适合在没有未来轨迹知识的情况下学习因果策略。作为另一种方法,SOAP 评估了最佳选项分配的策略梯度。它扩展了广义优势估计 (GAE) 的概念,通过时间传播选项优势,这与执行选项策略梯度的时间反向传播在分析上等效。这种选项策略仅取决于代理的历史,而不是未来的动作。与竞争基线进行评估后,SOAP 表现出最稳健的性能,正确地发现了 POMDP 走廊环境的选项,以及在包括 Atari 和 MuJoCo 在内的标准基准上,性能优于 PPOEM 以及 LSTM 和 Option-Critic 基线。开源代码可在 https://github.com/shuishida/SoapRL 获取。
大型语言模型 (LLMs) 近年来被应用于机器人领域,用于将 LLM 的常识推理与机器人的感知和物理能力相结合。在类人机器人中,记忆在培养现实世界中的具身性以及促进长期交互能力方面也起着至关重要的作用,尤其是在多任务环境中,机器人必须记住之前的任务状态、环境状态和执行的动作。本文探讨了将记忆过程与 LLM 相结合以生成跨任务机器人动作的方法,同时机器人可以在任务之间有效切换。我们提出的双层架构包含两个 LLM,利用其在推理和遵循指令方面的互补技能,并结合了受人类认知启发的记忆模型。我们的结果表明,在五个机器人任务的基线上,性能得到了显著提升,证明了将记忆与 LLM 集成以结合机器人的动作和感知以适应性地执行任务的潜力。
GPU 计算能力的快速发展已经超过了内存容量和带宽增长的速度,这在大型语言模型 (LLM) 推理中造成了瓶颈。训练后量化是解决 LLM 推理中与内存相关的瓶颈的主要方法,但它在低于 4 位精度时会遭受严重的性能下降。本文通过研究低位宽模型(特别是三元语言模型 (TriLMs))的预训练来解决这些挑战,作为传统浮点模型 (FloatLMs) 及其训练后量化版本 (QuantLMs) 的替代方案。我们提出了 Spectra LLM 套件,这是第一个涵盖多种位宽的开放式 LLM 套件,包括 FloatLMs、QuantLMs 和 TriLMs,参数范围从 99M 到 3.9B,在 300B 个 token 上进行训练。我们全面的评估表明,TriLMs 在模型大小(以位计)方面具有优越的扩展行为。令人惊讶的是,在超过十亿个参数的规模上,TriLMs 在各种基准测试中始终优于其 QuantLM 和 FloatLM 对应模型,前提是位大小相同。值得注意的是,3.9B 参数的 TriLM 在所有基准测试中都与 FloatLM 3.9B 的性能相匹配,尽管其位数少于 FloatLM 830M。总的来说,这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解,为开发更高效的 LLM 铺平了道路。
为了增进对低位宽模型的理解,我们将在 https://github.com/NolanoOrg/SpectraSuite 上发布 500 多个 Spectra 套件的中间检查点。
公共城市空间,例如街道景观和广场,为居民提供服务,并容纳各种充满活力的社会生活。机器人技术和具身人工智能的最新进展使公共城市空间不再是人类的专属。送餐机器人和电动轮椅已开始与行人共享人行道,而机器狗和人形机器人最近也出现在街道上。由人工智能支持的公共城市空间中的短途旅行微型移动是未来交通系统中的关键组成部分。确保在移动机器上操纵人工智能模型的泛化能力和安全性至关重要。在这项工作中,我们介绍了 MetaUrban,这是一个用于人工智能驱动的城市微型移动研究的组合模拟平台。MetaUrban 可以从组合元素构建无限数量的交互式城市场景,涵盖各种地面平面、物体放置、行人、弱势道路使用者以及其他移动代理的外观和动态。我们将点导航和社会导航任务设计为使用 MetaUrban 进行城市微型移动研究的先导研究,并建立强化学习和模仿学习的各种基线。我们对移动机器进行了广泛的评估,表明异质机械结构显着影响人工智能策略的学习和执行。我们进行了一项彻底的消融研究,表明模拟环境的组合性质可以显着提高训练后的移动代理的泛化能力和安全性。MetaUrban 将公开发布,以提供研究机会,并在城市中培养安全可靠的具身人工智能和微型移动。代码和数据集将公开发布。
我们探索了视觉语言模型 (VLMs) 中的多步推理。该问题具有挑战性,因为包含多个步骤的视觉和语言处理推理数据几乎不可用。为了克服这一挑战,我们首先引入了一种从少到多的视觉推理范式,该范式交织了将问题分解为子问题和调用外部工具来解决子问题的步骤。基于该范式,我们进一步提出了一种新颖的数据合成方法,该方法可以自下而上地自动为图像创建问题和多步推理路径。我们的方法将复杂合成任务划分为几个简单的子任务,并且(几乎完全)依赖于开源模型来完成这些子任务。因此,整个合成过程是可重复且成本效益高的,并且合成数据的质量得到保证。利用该方法,我们构建了 50,000 个视觉推理示例。然后,我们通过监督微调开发了一个视觉推理器,该推理器能够以即插即用方式普遍增强各种现有 VLMs 的推理能力。大量实验表明,视觉推理器可以在四个 VQA 基准上持续且显着地改进四个 VLMs。我们的代码和数据集可在 https://github.com/steven-ccq/VisualReasoner 获取。
为了解决数据异质性问题,个性化联邦学习 (PFL) 的关键策略是将通用知识(在客户端之间共享)和客户端特定知识解耦,因为后者如果没有被移除,可能会对协作产生负面影响。现有的 PFL 方法主要采用参数划分方法,其中模型的参数被指定为两种类型之一:与其他客户端共享的参数,用于提取通用知识;以及本地保留的参数,用于学习客户端特定知识。然而,由于这两种类型的参数在训练过程中像拼图一样拼凑成一个模型,因此每个参数可能会同时吸收通用知识和客户端特定知识,从而难以有效地分离这两种类型的知识。在本文中,我们介绍了 FedDecomp,一种简单但有效的 PFL 范式,它采用参数加性分解来解决这个问题。FedDecomp 并没有将模型的每个参数指定为共享或个性化的,而是将每个参数分解为两个参数的总和:一个共享参数和一个个性化参数,与参数划分方法相比,实现了更彻底的共享和个性化知识解耦。此外,我们发现保留特定客户端的本地知识所需的模型容量远低于所有客户端的通用知识,因此我们让包含个性化参数的矩阵在训练过程中保持低秩。此外,还提出了一种新的交替训练策略,以进一步提高性能。在多个数据集和不同程度的数据异质性上的实验结果表明,FedDecomp 的性能优于最先进的方法,最高可达 4.9%。代码可在 https://github.com/XinghaoWu/FedDecomp 获取。
目前最有效的检测大型语言模型生成文本的技术依赖于在模型解码过程中插入可检测的签名,即水印。大多数现有的水印方法需要访问底层大型语言模型的logits,而大型语言模型 API 提供商出于模型蒸馏的担忧,不愿意分享这些信息。因此,这些水印必须由每个大型语言模型提供商独立实施。本文提出了一种模块化的后验水印程序 PostMark,该程序在解码过程完成后,通过插入一组与输入相关的单词(通过语义嵌入确定)来实现。重要的是,PostMark 不需要访问 logits,这意味着它可以由第三方实施。我们还表明,与现有的水印方法相比,PostMark 对改写攻击具有更强的鲁棒性:我们的实验涵盖了八种基线算法、五种基础大型语言模型和三个数据集。最后,我们使用自动化和人工评估评估了 PostMark 对文本质量的影响,突出了质量与改写鲁棒性之间的权衡。我们发布了代码、输出和注释,地址为 https://github.com/lilakk/PostMark。
大型语言模型 (LLM) 已经在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
作为一种有望解决人工评估可扩展性挑战的方案,将大型语言模型 (LLM) 作为评判者的范式正在迅速成为评估大型语言模型 (LLM) 的一种方法。然而,关于这种范式的优缺点以及它可能存在的潜在偏差,仍然存在许多悬而未决的问题。在本文中,我们对各种充当评判者的 LLM 的性能进行了全面研究,重点关注人类一致性很高的干净场景。我们调查了 13 种不同模型大小和系列的评判模型,对 9 种不同的“应试者模型”(基础模型和指令微调模型)的答案进行评判,发现只有最佳(也是最大)模型才能与人类实现合理的一致性。然而,它们仍然远远落后于人与人之间的一致性,它们分配的评分可能仍然与人类分配的评分相差高达 5 分。相反,就对 9 个应试者模型的排名而言,即使是较小的模型,甚至词法指标也可以提供合理的信号。通过错误分析和其他研究,我们发现了评判模型的弱点,例如它们对提示复杂性和长度的敏感性,以及倾向于宽容。即使在如此简单的设置中,最好的评判者与人类的差异也表明,在更复杂的环境中使用评判者时,谨慎行事可能是明智的。最后,我们的研究重新发现了使用超出简单百分比一致性的对齐指标的重要性,表明具有高百分比一致性的评判者仍然可能分配截然不同的评分。