arXiv 论文列表

作者: Ramy Mounir, Sudeep Sarkar

顺序记忆，即以正确顺序形成并准确回忆一系列事件或刺激的能力，是生物和人工智能的基本先决条件，因为它支撑着许多认知功能（例如语言理解、计划、情景记忆形成等）。然而，现有的顺序记忆方法存在灾难性遗忘、容量有限、学习过程迭代缓慢、低阶马尔可夫记忆，以及最重要的是无法表示和生成来自相同上下文的多重有效未来可能性。受认知神经科学理论的启发，我们提出了“预测吸引子模型 (PAM)”，这是一种具有理想生成特性的新型序列记忆架构。PAM 是一种流式模型，它通过观察每个输入“仅一次”来以在线、连续的方式学习序列。此外，我们发现 PAM 通过皮质微柱中的横向抑制独特地表示过去上下文，从而避免了灾难性遗忘，防止新记忆覆盖先前学习的知识。PAM 通过从一组预测的可能性中采样来生成未来预测；这种生成能力是通过与预测器一起训练的吸引子模型实现的。我们证明 PAM 通过在生物学上合理的框架中使用 Hebbian 可塑性规则进行局部计算训练。本文讨论了其他理想特征（例如噪声容忍度、基于 CPU 的学习、容量扩展）。我们的研究结果表明，PAM 代表了在追求生物学上合理且计算高效的顺序记忆模型方面取得的重大进步，对认知科学和人工智能研究具有广泛的意义。

发布时间: 10/4/2024

查看原文

物联网-大语言模型：利用大语言模型增强现实世界物联网任务推理

作者: Tuo An, Yunjiao Zhou, Han Zou, Jianfei Yang

大型语言模型 (LLM) 在文本和视觉领域展现出非凡的能力，但它们生成的输出往往违反物理定律，暴露了它们对物理世界的理解存在差距。受人类认知的启发，人类的感知是推理的基础，我们探索了利用物联网 (IoT) 传感器数据和相关知识来增强 LLM 的感知能力，以实现物理世界中物联网任务的推理。在这项工作中，我们系统地研究了 LLM 通过增强其感知和知识库来解决现实世界物联网任务的能力，并提出了一种统一的框架 IoT-LLM 来增强这种能力。在 IoT-LLM 中，我们为 LLM 定制了三个步骤：将物联网数据预处理成 LLM 可接受的格式，通过思维链提示和专门的角色定义来激活它们的常识知识，以及通过基于上下文学习的物联网导向检索增强生成来扩展它们的理解。为了评估性能，我们设计了一个新的基准，包含五个具有不同数据类型和推理难度的现实世界物联网任务，并提供了六个开源和闭源 LLM 的基准测试结果。实验结果表明，现有的 LLM 在使用简单的文本输入时无法有效地执行这些任务，存在局限性。我们证明了 IoT-LLM 显着增强了 LLM 的物联网任务推理性能，例如 GPT-4，在各种任务中与之前的方法相比平均提高了 65%。结果还展示了 LLM 通过提供推理过程来理解物联网数据和数据背后的物理定律的能力。我们工作中的局限性将激励未来在这个新时代的研究。

发布时间: 10/4/2024

查看原文

基于强化学习的高交互交通场景下的端到端驾驶

作者: Yueyuan Li, Mingyang Jiang, Songan Zhang, Wei Yuan, Chunxiang Wang, Ming Yang

动态和交互式的交通场景给自动驾驶系统带来了巨大的挑战。强化学习 (RL) 提供了一种很有前途的方法，它能够在预先收集的数据集和预定义条件的限制之外探索驾驶策略，尤其是在复杂的环境中。然而，一个关键的挑战在于如何有效地从高维、多模态观测序列中提取时空特征，同时最大程度地减少随着时间的推移而累积的误差。此外，在训练过程中，如何有效地引导大规模 RL 模型收敛到最佳驾驶策略，而不会出现频繁的失败，仍然是一个难题。我们提出了一种名为 Ramble 的端到端模型驱动的 RL 算法来解决这些问题。Ramble 将多视角 RGB 图像和 LiDAR 点云处理成低维潜在特征，以捕捉每个时间步的交通场景上下文。然后，采用基于 Transformer 的架构来建模时间依赖关系并预测未来状态。通过学习环境的动力学模型，Ramble 可以预见即将发生的交通事件，并做出更明智、更具战略性的决策。我们的实现表明，在特征提取和决策方面的先前经验在加速 RL 模型向最佳驾驶策略收敛方面起着至关重要的作用。Ramble 在 CARLA 排行榜 2.0 上实现了最先进的路线完成率和驾驶评分，展示了其在管理复杂和动态交通状况方面的有效性。

发布时间: 10/4/2024

查看原文

SEAL：基于语言模型的语义增强模仿学习

作者: Chengyang Gu, Yuxin Pan, Haotian Bai, Hui Xiong, Yize Chen

分层模仿学习 (HIL) 是一种很有前景的方法，可以用于解决长时域决策任务。然而，由于缺乏子目标学习的详细监督标签，以及对数百到数千个专家演示的依赖，这是一个具有挑战性的任务。在这项工作中，我们介绍了 SEAL，一个新颖的框架，利用大型语言模型 (LLMs) 的强大语义和世界知识，既可以指定子目标空间，又可以对状态进行预标记，以获得语义上有意义的子目标表示，而无需事先了解任务层次结构。SEAL 采用双编码器结构，将监督的 LLM 引导的子目标学习与无监督的矢量量化 (VQ) 相结合，以获得更鲁棒的子目标表示。此外，SEAL 还整合了一个过渡增强型低级规划器，以更好地适应子目标过渡。我们的实验表明，SEAL 优于最先进的 HIL 方法和基于 LLM 的规划方法，尤其是在专家数据集较小且任务复杂的长时域任务设置中。

发布时间: 10/4/2024

查看原文

CodePMP：面向大型语言模型推理的可扩展偏好模型预训练

作者: Huimu Yu, Xing Wu, Weidong Yin, Debing Zhang, Songlin Hu

大型语言模型 (LLMs) 在自然语言理解和生成方面取得了重大进展，这得益于可扩展的预训练和先进的微调。然而，增强 LLMs 的推理能力，特别是通过来自人类反馈的强化学习 (RLHF)，仍然是一个挑战，因为高质量的偏好数据稀缺，这种数据标注劳动密集型，对于奖励模型 (RM) 微调至关重要。为了缓解这个问题，我们引入了 CodePMP，这是一个可扩展的偏好模型预训练 (PMP) 管道，它利用来自公开可用高质量源代码的大量合成代码-偏好对。CodePMP 通过在大型合成代码-偏好对上预训练偏好模型来提高 RM 微调效率。我们在数学推理任务 (GSM8K、MATH) 和逻辑推理任务 (ReClor、LogiQA2.0) 上评估了 CodePMP，结果表明 LLMs 的推理性能始终显着提高，并突出了可扩展的偏好模型预训练对于高效奖励建模的重要性。

发布时间: 10/4/2024

查看原文

GraphIC：一种基于图的上下文示例检索模型，用于多步推理

作者: Jiale Fu, Yaqing Wang, Simeng Han, Jiaming Fan, Chen Si, Xu Yang

**摘要：** 上下文学习（ICL）使大型语言模型（LLM）能够通过在输入中直接包含少量上下文示例（ICE），而无需更新参数，从而泛化到新的任务。然而，ICL 的有效性在很大程度上取决于 ICE 的选择，而传统的基于文本的嵌入方法对于需要多步推理的任务（如数学和逻辑问题解决）往往不足。这是由于浅层语义相似性引入的偏差，这些偏差未能捕捉到这些任务所需的更深层的推理结构。我们提出了 GraphIC，一种利用推理过程的基于图的表示的新方法，并结合贝叶斯网络（BN）来选择 ICE。图结构固有地过滤掉浅层语义，同时保留核心推理结构。重要的是，BN 捕获了节点属性对其父节点的依赖性，这与人类认知的层次结构非常相似——其中每个想法都是由前一个想法塑造的。这使得 BN 特别适合多步推理任务，使该过程更接近于类人的推理。在三种类型的推理任务（数学推理、代码生成和逻辑推理）中进行的大量实验表明，GraphIC 在选择 ICE 方面优于无训练和基于训练的模型，在有效性和效率方面都表现出色。我们表明，GraphIC 增强了 ICL 的性能和互操作性，显着提高了多步推理任务的 ICE 选择。

发布时间: 10/4/2024

查看原文

基于偏好表示的通用偏好建模，用于对齐语言模型

作者: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu

模拟人类偏好对于使基础模型与人类价值观保持一致至关重要。传统的奖励建模方法，如 Bradley-Terry (BT) 奖励模型，在表达能力方面存在不足，尤其是在处理非传递偏好方面。虽然监督配对偏好模型 (PairPM) 可以表达一般的偏好，但它们的实现高度特定，无法保证比较配对的一致偏好概率。此外，由于它们在比较多个响应时的二次查询复杂度，它们会带来高昂的计算成本。在本文中，我们介绍了偏好表示学习，这是一种将响应嵌入到潜在空间中以有效地捕获复杂偏好结构的方法，实现了线性查询复杂度。此外，我们提出了基于偏好分数的通用偏好优化 (GPO)，它将基于奖励的强化学习从人类反馈中推广出来。实验结果表明，我们的通用偏好表示模型 (GPM) 在 RewardBench 基准测试中优于 BT 奖励模型，优势高达 5.6%，并且有效地模拟了循环偏好，在该偏好中，任何 BT 奖励模型的表现都类似于随机猜测。此外，在 AlpacaEval2.0 和 MT-Bench 等下游任务上的评估表明，在使用 GPO 和我们的通用偏好模型对语言模型进行后训练后，性能得到了显著提高，优势高达 9.3%。这些发现表明，我们的方法可以增强基础模型与细微的人类价值观的一致性。代码可在 https://github.com/general-preference/general-preference-model 获取。

发布时间: 10/4/2024

查看原文

多智能体系统中的面向智能体的规划

作者: Ao Li, Yuexiang Xie, Songze Li, Fugee Tsung, Bolin Ding, Yaliang Li

多智能体系统通过多个拥有不同专业知识和工具的智能体的协作，在解决现实世界问题方面取得了显著进展。针对用户查询，作为系统中“大脑”的元智能体需要将查询分解成多个子任务，并分配给能够解决这些子任务的合适智能体，即所谓的面向智能体的规划。本研究确定了面向智能体规划的三项关键设计原则，包括可解性、完整性和非冗余性，以确保每个子任务得到有效解决，从而对原始查询给出令人满意的响应。这些原则进一步启发了我们为多智能体系统提出一个面向智能体的规划框架，利用快速的任务分解和分配过程，随后通过奖励模型进行有效且高效的评估。在规划过程中，元智能体还负责评估专家智能体的性能，并根据需要对子任务进行及时调整和调度。此外，我们在提出的框架中集成了一个反馈回路，以进一步增强这种问题解决过程的有效性和鲁棒性。大量的实验表明，与单智能体系统和现有的多智能体系统规划策略相比，提出的框架在解决现实世界问题方面取得了进展。

发布时间: 10/4/2024

查看原文

基于大型语言模型的自动评分框架，实现人类水平的评分指南优化

作者: Yucheng Chu, Hang Li, Kaiqi Yang, Harry Shomer, Hui Liu, Yasemin Copur-Gencturk, Jiliang Tang

开放式简答题 (SAG) 已被广泛认为是在学习分析 (LA) 的背景下提供对学习者反应更深入见解的强大工具。然而，由于评分工作量大以及对评估不一致的担忧，SAG 在实践中往往面临挑战。随着自然语言处理 (NLP) 的最新进展，自动简答题评分 (ASAG) 为这些挑战提供了一种有希望的解决方案。尽管如此，当前的 ASAG 算法在泛化性方面往往受到限制，并且往往针对特定问题进行定制。在本文中，我们提出了一种统一的多智能体 ASAG 框架 GradeOpt，该框架利用大型语言模型 (LLMs) 作为 SAG 的评分者。更重要的是，GradeOpt 将两个额外的基于 LLMs 的智能体——反射器和精炼器——纳入多智能体系统。这使 GradeOpt 能够通过对其错误进行自我反省来自动优化原始评分指南。通过对具有挑战性的 ASAG 任务（即对教学内容知识 (PCK) 和内容知识 (CK) 问题的评分）进行的实验，与代表性基线相比，GradeOpt 在评分准确性和与人类评分者的行为一致性方面表现出优异的性能。最后，全面的消融研究证实了 GradeOpt 中设计的各个组件的有效性。

发布时间: 10/4/2024

查看原文

草莓田的规划：评估和改进LRM o1的规划和调度能力

作者: Karthik Valmeekam, Kaya Stechly, Atharva Gundawar, Subbarao Kambhampati

大型语言模型（LLMs）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLMs的方法...

发布时间: 10/4/2024

查看原文