离线强化学习 (RL) 通过利用预收集的数据来学习最优策略,从而解决顺序决策问题,而无需与环境交互。然而,由于人们很少明确地知道奖励,并且难以事后推断奖励,因此离线强化学习一直不太实用。本文表明,即使没有明确的奖励或动作标签,模仿代理仍然可以仅通过观察专家来学习期望的行为。在我们的方法 AILOT(基于最优传输的对齐模仿学习)中,我们使用意图的形式对状态进行特殊表示,该意图包含数据中成对的空间距离。基于这种表示,我们通过专家轨迹和代理轨迹之间的最优传输距离来定义内在奖励函数。我们报告了 AILOT 在 D4RL 基准测试中优于最先进的离线模仿学习算法,并且通过在稀疏奖励任务中重新标记密集奖励来提高其他离线 RL 算法的性能。
人类经常使用类比思维,将个人经历与当前情况联系起来(X 与 Y 相似,因为 Z)。类比思维使人类能够以创造性的方式解决问题,理解复杂的概念,并更有效地表达想法。语言模型 (LM) 能做到同样的事情吗?为了回答这个问题,我们提出了 AnaloBench,这是一个基准,用于确定 LM 的类比推理能力。我们的基准测试方法侧重于这种能力在人类中普遍存在的方面:(i)从大量信息中回忆相关经历,以及 (ii) 将类比推理应用于复杂且冗长的场景。我们测试了广泛的专有模型(例如,GPT 家族、Claude V2)和开源模型,例如 LLaMA2。与之前的结果一样,扩大 LM 的规模会导致一些性能提升。令人惊讶的是,当 (i) 类比涉及冗长的场景,或者 (ii) 从大量信息池中回忆相关场景时,规模带来的收益很小,这是一个类似于大海捞针的过程。我们希望这些观察结果能够鼓励该领域进一步的研究。
本文探讨了一个有趣的现象:使用大型语言模型 (LLM) 生成的响应微调大型语言模型 (LLM) 往往比使用人类生成的响应效果更好,尤其是在推理任务中。我们对这一现象进行了深入研究,以了解其背后的原因。与普遍认为 LLM 生成的内容更详细有关的观点相反,我们的研究发现另一个重要因素:LLM 本质上对 LLM 生成的响应更“熟悉”。这种熟悉性在微调前的困惑度较低中得到体现。我们设计了一系列实验来了解“熟悉性”的影响,我们的结论表明这种“熟悉性”对学习性能有显著影响。使用 LLM 生成的响应进行训练不仅可以提高性能,还可以帮助在特定任务上微调后保持模型在其他推理任务中的能力。
大多数具有正式遗憾保证的学习算法假设没有错误是不可弥补的,并且本质上依赖于尝试所有可能的行为。当某些错误是*灾难性的*,即不可弥补时,这种方法是有问题的。我们提出了一种在线学习问题,其目标是最大程度地减少灾难发生的可能性。具体来说,我们假设每一轮的回报代表了该轮避免灾难的可能性,并旨在最大化回报的乘积(避免灾难的总体可能性),同时允许对导师进行有限数量的查询。我们首先表明,一般而言,任何算法要么不断地查询导师,要么几乎肯定会导致灾难。然而,在导师策略类在标准在线学习模型中可学习的情况下,我们提供了一种算法,其遗憾和查询导师的速率都随着时间范围的增长而接近 0。从概念上讲,如果在没有灾难性风险的情况下可以学习策略类,那么如果代理可以寻求帮助,它就可以在存在灾难性风险的情况下学习。
尽管物理信息神经网络 (PINNs) 在处理非线性偏微分方程 (PDEs) 方面展现出巨大潜力,但 PINNs 普遍存在精度不足或得到错误结果的问题。与大多数现有解决方案试图通过优化训练过程来增强 PINN 能力不同,本文通过改进神经网络架构来提升 PINN 的性能。我们提出了一种密集乘法 PINN (DM-PINN) 架构,它将隐藏层输出与所有后续隐藏层的输出相乘。这种有效的机制在不引入更多可训练参数的情况下,可以显著提高 PINNs 的精度。所提出的架构在四个基准示例(Allan-Cahn 方程、亥姆霍兹方程、Burgers 方程和一维对流方程)上进行了评估。所提架构与不同 PINN 结构的比较表明,DM-PINN 在精度和效率方面均具有优越的性能。
本文探讨了机器学习算法中元参数(即超参数)优化的挑战,这是一个影响训练效率和模型性能的关键因素。为了摆脱传统元参数搜索方法的高计算成本,我们引入了 MetaOptimize 框架,该框架可以在训练过程中动态调整元参数,特别是步长(也称为学习率)。更具体地说,MetaOptimize 可以围绕任何一阶优化算法进行封装,通过对未来损失的折扣总和来调整步长,以最小化特定形式的遗憾,该遗憾考虑了步长对训练的长期影响。我们还引入了 MetaOptimize 的低复杂度变体,这些变体与其对多种优化算法的适应性相结合,证明了其在各种机器学习应用中与最佳手工制作的学习率调度方案相比具有竞争力的性能。
基于大型语言模型的智能体在任务规划领域展现出巨大潜力,并吸引了广泛关注。鉴于这些智能体将被整合到高风险领域,确保其可靠性和安全性至关重要。本文提出了一种基于智能体宪法的智能体框架——TrustAgent,特别侧重于提高基于大型语言模型的智能体安全性。该框架通过三个战略组件确保严格遵守智能体宪法:预规划策略,在计划生成之前向模型注入安全知识;规划中策略,在计划生成过程中增强安全性;以及规划后策略,通过规划后检查确保安全性。我们的实验结果表明,该框架可以通过在规划过程中识别和缓解潜在危险,有效地提高大型语言模型智能体在多个领域的安全性。进一步分析表明,该框架不仅提高了安全性,而且增强了智能体的帮助性。此外,我们强调了大型语言模型推理能力在遵守宪法方面的重要性。本文阐明了如何确保基于大型语言模型的智能体安全地融入以人为中心的環境。数据和代码可在 https://github.com/agiresearch/TrustAgent 获取。
预训练的大型语言模型(LLMs)在执行零样本任务(包括时间序列预测)方面意外地有效。然而,由于模型的复杂性,理解这些能力背后的机制仍然极具挑战。我们研究了 LLMs 预测受物理学原理控制的动力系统演化的能力。我们的结果表明,主要在文本上训练的语言模型 LLaMA 2 在没有微调或提示工程的情况下,可以准确地预测动力系统时间序列。此外,学习到的物理规则的准确性随着输入上下文窗口长度的增加而提高,揭示了神经缩放定律的上下文版本。在此过程中,我们提出了一种灵活高效的算法,用于直接从 LLMs 中提取多位数字的概率密度函数。
智能的一个标志是能够表现出多种有效的行为。受此原则的启发,MAP-Elites 等质量多样性算法是旨在生成一组多样化且高适应度解的进化方法。然而,作为一种遗传算法,MAP-Elites 依赖于随机变异,这在高维搜索空间中可能变得效率低下,从而限制了其在更复杂领域(例如直接从高维输入学习控制代理)的可扩展性。为了解决这一限制,已经开发了 PGA-MAP-Elites 和 DCG-MAP-Elites 等先进方法,它们将强化学习中的演员-评论家技术与 MAP-Elites 相结合,显著提高了质量多样性算法在复杂高维任务中的性能和效率。虽然这些方法已成功利用训练过的评论家来引导更有效的变异,但训练过的演员在提高进化种群的质量和多样性方面的潜力仍未得到充分利用。在这项工作中,我们介绍了 DCRL-MAP-Elites,它是 DCG-MAP-Elites 的扩展,它利用描述符条件演员作为生成模型来生成多样化的解,这些解随后在每一代被注入到后代批次中。此外,我们对每种算法发现的解的适应度和描述符再现性进行了实证分析。最后,我们提供了一个第二个实证分析,揭示了不同变异算子之间的协同作用,并解释了从 PGA-MAP-Elites 到 DCRL-MAP-Elites 的性能改进。
大型语言模型 (LLM) 在规划和工具利用方面展现出非凡的能力,成为自主代理,但很少有被开发用于医疗问题解决。我们提出 EHRAgent,一个拥有代码接口的 LLM 代理,能够自主地生成和执行代码,用于电子健康记录 (EHR) 中的多表格推理。首先,我们将 EHR 问答任务转化为工具使用规划过程,有效地将复杂任务分解成一系列可管理的动作。通过整合交互式编码和执行反馈,EHRAgent 从错误信息中学习,并通过迭代改进最初生成的代码。此外,我们通过加入长期记忆来增强 LLM 代理,这使 EHRAgent 能够有效地从过去的经验中选择并建立最相关的成功案例。在三个真实世界的多表格 EHR 数据集上的实验表明,EHRAgent 在成功率方面比最强的基线高出 29.6%。EHRAgent 利用 LLM 新兴的少样本学习能力,能够自主生成和执行代码,以最少的演示解决复杂的临床任务。