无标签运动规划涉及将一组机器人分配到目标位置,同时确保避免碰撞,旨在最小化总行驶距离。该问题为探索、监控和运输等应用中的多机器人系统构成了一个基本模块。我们在一个分散式环境中解决这个问题,其中每个机器人只知道其 $k$ 个最近的机器人和 $k$ 个最近的目标的位置。这种情况结合了组合分配和连续空间运动规划的元素,对传统的集中式方法提出了重大的可扩展性挑战。为了克服这些挑战,我们提出了一种通过图神经网络 (GNN) 学习的分散式策略。GNN 使机器人能够确定 (1) 向邻居通信哪些信息,以及 (2) 如何将接收到的信息与本地观察结果整合起来进行决策。我们使用集中式匈牙利算法作为专家策略,通过模仿学习训练 GNN,并使用强化学习对其进行进一步微调,以避免碰撞并提高性能。广泛的实证评估证明了我们方法的可扩展性和有效性。在 100 个机器人上训练的 GNN 策略可以推广到最多 500 个机器人的场景,平均性能优于最先进的解决方案 8.6%,并且明显优于贪婪的分散式方法。这项工作为在可扩展性至关重要的环境中解决多机器人协调问题奠定了基础。
我们提出了一种领域自适应奖励模型,该模型与离线 A/B 测试系统协同工作,用于评估排序模型。这种方法有效地衡量了大型广告推荐系统中排序模型变化的奖励,而像 IPS 这样的无模型方法在这些系统中不可行。我们的实验表明,所提出的技术优于原始 IPS 方法和使用非泛化奖励模型的方法。
受硬件能力快速进步的推动,量子机器学习已成为一个备受关注的研究领域。近年来,量子图像生成取得了令人鼓舞的成果。然而,现有的量子图像生成技术依赖于经典神经网络,限制了它们的量子潜力和图像质量。为了克服这一问题,我们引入了OrganiQ,这是第一个能够在不使用经典神经网络的情况下生成高质量图像的量子生成对抗网络。
随着量子计算架构的不断成熟,研究能够提供独特优势的新技术至关重要。本文提出了一种名为 Qompose 的中性原子量子计算框架,用于在中性原子的二维拓扑结构上高效地组合量子线路。Qompose 为任何给定的线路选择一个高效的拓扑结构,以通过高效的并行化和整体保真度来优化执行长度。我们广泛的评估表明,Qompose 对大量随机生成的量子线路和一系列现实世界基准测试(包括 VQE、ISING 和 QAOA)有效。
大型语言模型 (LLMs) 的有效性不仅体现在其生成准确输出的能力,还在于其校准程度——其置信度得分在多大程度上反映了其输出正确的概率。虽然无监督预训练已被证明可以产生具有良好校准条件概率的 LLMs,但最近的研究表明,在使用来自人类反馈的强化学习 (RLHF) 进行微调后,这些模型的校准度会显著下降。在本研究中,我们介绍了自适应温度缩放 (ATS),这是一种事后校准方法,它预测每个词元预测的温度缩放参数。预测的温度值根据词元级别的特征进行调整,并在标准监督微调 (SFT) 数据集上进行拟合。ATS 的自适应性解决了 RLHF 微调后可能发生的校准偏移程度不同的问题。与之前的校准方法相比,ATS 在三个下游自然语言评估基准上将校准度提高了 10-50%,并且不会阻碍 RLHF 带来的性能提升。
机器人强化学习(RL)中真实世界数据的昂贵成本导致了模拟器的广泛使用。尽管在构建更好的动力学模型以使模拟器与真实世界相匹配方面进行了大量工作,但模拟和真实世界之间还存在另一种经常被忽视的不匹配,即可用训练任务的分布。这种不匹配被现有的课程学习技术进一步加剧,这些技术在不考虑其与真实世界的相关性的情况下自动改变了模拟任务分布。考虑到这些挑战,我们认为机器人RL的课程学习需要以真实世界任务分布为基础。为此,我们提出了基于真实世界的课程学习(GCL),它将课程中的模拟任务分布与真实世界对齐,并明确考虑了机器人已经完成的任务以及机器人在过去的表现。我们使用 BARN 数据集对复杂导航任务验证了 GCL,与最先进的 CL 方法和人类专家设计的课程相比,成功率分别提高了 6.8% 和 6.5%。这些结果表明,GCL 通过在自适应课程中将模拟任务分布与真实世界对齐,可以提高学习效率和导航性能。
随着大型语言模型(LLM)的不断发展,它们展现组合泛化能力的能力——即以训练期间未曾遇到的新颖方式组合学习到的技能的能力——引起了广泛关注。这种类型的泛化,特别是在超出训练数据的场景中,在人工智能安全和对齐的研究中也备受关注。最近的一项研究引入了SKILL-MIX评估,其中模型的任务是撰写一段简短的文字,以展示使用指定$k$元组语言技能的方式。虽然小型模型在$k=3$时难以进行组合,但GPT-4等大型模型在$k=5$和$k=6$时表现良好。
本文使用类似于SKILL-MIX的设置,评估小型模型从示例中学习组合泛化能力。利用一组多样化的语言技能——包括修辞、文学、推理、心智理论和常识——GPT-4被用来生成展示随机$k$子集技能的文本样本。随后,在这些组合技能文本上对70亿和130亿参数模型进行微调,以提高$k$的值,揭示了以下发现:(1)在$k=2$和$k=3$技能组合上进行训练,可以显著提高撰写$k=4$和$k=5$技能文本的能力,尽管模型在训练期间从未见过此类示例。(2)当技能类别被分成训练组和保留组时,模型在测试期间显著提高了撰写包含保留技能的文本的能力,尽管它们在微调期间只看到了训练技能,这说明了即使对于以前从未见过的技能,这种训练方法也具有有效性。这项研究还表明,将富含技能(可能是合成的)文本纳入训练可以显著提高模型的组合能力。
近年来,音频语言模型(ALMs)在零样本音频识别任务中取得了显著成功,这些任务将音频波形的特征与特定类别的文本提示特征相匹配,其灵感来自于视觉语言模型(VLMs)的进步。鉴于零样本性能对手工制作的文本提示选择的敏感性,许多提示学习技术已被开发用于 VLMs。我们探索了这些方法在 ALMs 中的有效性,并提出了一种新方法,即音频语言模型中的提示学习(PALM),该方法优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同,我们的方法可以提高训练效率。我们在 11 个音频识别数据集上证明了我们方法的有效性,涵盖了各种语音处理任务,并在少样本学习环境中将结果与三个基线进行了比较。我们的方法在计算量要求较低的情况下,要么与其他方法相当,要么优于其他方法。代码可在 https://asif-hanif.github.io/palm/ 获取。
代码自动评审任务近年来引起了机器学习社区的广泛关注。然而,现有的评审评论评估指标依赖于与给定代码变更(也称为差异)的人工编写的参考进行比较,即使代码评审是一个多对一问题,就像生成和摘要一样,一个差异可能有多个“有效评审”。为了解决这些问题,我们开发了 CRScore——一个无参考指标,用于衡量评审质量的维度,例如简洁性、全面性和相关性。我们设计 CRScore 以一种基于 LLM 和静态分析器在代码中检测到的断言和潜在问题的方式评估评审。我们证明 CRScore 可以生成有效的、细粒度的评审质量评分,这些评分与人工判断的匹配度最高(斯皮尔曼相关系数为 0.54),并且比基于参考的指标更敏感。我们还发布了一个包含 2.6k 个人工标注的机器生成和 GitHub 评审评论质量评分的语料库,以支持自动指标的开发。
本文针对具有复杂相互作用的、受有界不确定性影响的连续时间非线性系统,提出了一种自适应事件触发强化学习控制方法。具体来说,该方法能够联合学习控制策略和通信策略,从而在分别学习或仅学习其中之一时减少参数数量和计算开销。通过使用累积奖励来扩充状态空间,累积奖励代表了整个轨迹上的性能,我们证明了在没有显式学习触发条件的情况下,可以准确有效地确定触发条件,从而导致自适应非平稳策略。最后,我们提供了几个数值例子来证明该方法的有效性。