arXiv 论文列表

CURO：相对过度泛化的课程学习

相对过度泛化（RO）是一种病态现象，当合作多智能体任务中最优联合动作的效用低于次优联合动作时可能出现。RO会导致智能体陷入局部最优或无法解决需要在特定时间步内进行显著协调的合作任务。在这项工作中，我们通过实验证明，在多智能体强化学习（MARL）中，基于价值和策略梯度的MARL算法都可能遭受RO的影响，并且无法学习到有效的协调政策。为了更好地克服RO，我们提出了一种新的方法，称为相对过度泛化的课程学习（CURO）。为了解决表现出强RO的目标任务，在CURO中，我们首先微调目标任务的奖励函数以生成源任务来训练智能体。然后，为了有效地将一个任务中获得的知识转移到下一个任务中，我们使用了一种结合价值函数转移和缓冲区转移的迁移学习方法，从而在目标任务中实现更高效的探索。CURO是通用的，可应用于基于价值和策略梯度的MARL方法。我们展示了在应用于QMIX、HAPPO和HATRPO时，CURO可以成功克服严重的RO，取得更好的性能，并在各种具有挑战性的合作多智能体任务中超越基线方法。

发布时间: 9/24/2024

查看原文

GraphMLP：一种用于3D人体姿态估计的类MLP图结构

现代多层感知器（MLP）模型在学习视觉表示方面展示了无需自注意力机制的竞争性结果。然而，现有的MLP模型在捕捉局部细节方面表现不佳，并且缺乏对人体结构的先验知识，这限制了它们在骨架表示学习中的建模能力。为了解决这些问题，我们提出了一种简单但有效的图增强MLP-Like架构，称为GraphMLP，它结合了MLP和图卷积网络（GCN），在一个全局-局部-图统一的架构中用于3D人体姿态估计。GraphMLP将人体的图结构融入MLP模型，以满足3D人体姿态的特定领域需求，同时允许局部和全局空间交互。此外，我们提出灵活且高效地将GraphMLP扩展到视频领域，并展示了复杂的时间动态可以以简单的方式进行有效建模，且在序列长度上的计算成本几乎可以忽略不计。据我们所知，这是第一个用于单帧和视频序列3D人体姿态估计的MLP-Like架构。大量实验表明，提出的GraphMLP在两个数据集（即Human3.6M和MPI-INF-3DHP）上达到了最先进的性能。代码和模型可在https://github.com/Vegetebird/GraphMLP上获取。

发布时间: 9/24/2024

查看原文

无监督学习的表示：探索应当结束吗？

经过四十年的研究，我们最佳的无监督学习表征方法与智能动物所达到的准确率之间仍然存在大约20%的分类准确率差距。因此，我们可能在错误的方向上寻找解决方案。本文提出了一个可能的解决方案。我们展示了强化学习能够学习到与动物相同准确率的表征。我们的主要贡献在于以下几点观察：a. 当应用于真实世界环境时，强化学习不需要标签，因此可以被正当地视为无监督学习，b. 相反，当强化学习应用于模拟环境时，它本质上需要标签，因此应通常被视为有监督学习。这些观察的推论是，在模拟环境中进一步寻找具有竞争力的无监督学习范式可能是徒劳的。

发布时间: 9/24/2024

查看原文

视觉语言模型能否玩动作角色扮演游戏？以《黑神话：悟空》为例进行研究

最近，基于大语言模型（LLM）的代理在多个领域取得了显著进展。其中一个最受欢迎的研究领域是将这些代理应用于视频游戏。传统上，这些方法依赖于游戏API来访问游戏中的环境和动作数据。然而，这种方法受限于API的可用性，并不能反映人类玩游戏的方式。随着视觉语言模型（VLMs）的出现，代理现在具有增强的视觉理解能力，使其能够仅通过视觉输入与游戏互动。尽管取得了这些进展，当前的方法在面向动作的任务中仍面临挑战，特别是在动作角色扮演游戏（ARPGs）中，强化学习方法虽然流行，但存在泛化能力差且需要大量训练的问题。为了解决这些限制，我们选择了一款ARPG游戏《黑神话：悟空》作为研究平台，以探索现有VLMs在需要视觉输入和复杂动作输出的场景中的能力边界。我们在游戏中定义了12项任务，其中75%集中在战斗上，并将几种最先进的VLMs整合到这一基准中。此外，我们将发布包含录制的游戏视频和操作日志（包括鼠标和键盘操作）的人工操作数据集。此外，我们提出了一种新的VARP（视觉动作角色扮演）代理框架，由一个动作规划系统和一个视觉轨迹系统组成。我们的框架展示了完成基本任务的能力，并在90%的简单和中等难度的战斗场景中取得成功。本研究旨在为在复杂动作游戏环境中应用多模态代理提供新的见解和方向。代码和数据集将发布在https://varp-agent.github.io/。

发布时间: 9/24/2024

查看原文

视觉-语言导航的持续学习

视觉-语言导航（VLN）是嵌入式智能的一个关键领域，要求代理基于自然语言指令在3D环境中导航。传统的VLN研究主要集中在改善环境理解和决策准确性。然而，由于训练数据多样性有限，这些方法在代理部署到新环境时往往表现出显著的性能差距。扩展数据集以涵盖更广泛的环境既不切实际又成本高昂。我们提出了视觉-语言导航的持续学习（VLNCL）范式来解决这一挑战。在这个范式中，代理逐步学习新的环境，同时保留先前获得的知识。VLNCL使代理能够维护环境记忆并提取相关知识，从而在快速适应新环境的同时保留现有信息。我们引入了一种新的双回路场景重放方法（Dual-SR），该方法受到大脑记忆重放机制的启发，并与VLN代理集成。这种方法有助于巩固过去的经验，增强新任务的泛化能力。通过利用多场景记忆缓冲区，代理高效地组织和重放任务记忆，从而增强其快速适应新环境的能力并减轻灾难性遗忘。我们的工作开创了VLN代理的持续学习，引入了一种新的实验设置和评估指标。我们通过广泛评估展示了我们方法的有效性，并为VLNCL范式建立了基准。与现有的持续学习和VLN方法的比较实验显示出显著的改进，在持续学习能力方面达到了最先进的性能，突显了我们方法在实现快速适应同时保留先前知识方面的潜力。

发布时间: 9/24/2024

查看原文

Cog-GA：基于大语言模型的连续环境视觉语言导航生成代理

视觉语言导航在连续环境中的研究（VLN-CE）代表了具身人工智能领域的前沿，要求智能体在没有边界的3D空间中仅凭自然语言指令进行自由导航。这个任务在多模态理解、空间推理和决策制定方面提出了独特的挑战。为了解决这些挑战，我们引入了Cog-GA，这是一种基于大规模语言模型（LLMs）为VLN-CE任务量身定制的生成型代理。Cog-GA采用双管齐下的策略来模拟类似人类的认知过程。首先，它构建一个认知地图，整合时间、空间和语义元素，从而促进LLMs中的空间记忆发展。其次，Cog-GA采用一个预测机制来确定航点，战略性地优化探索轨迹以最大化导航效率。每个航点都伴随着双通道场景描述，将环境线索分类为“是什么”和“在哪里”两条流，以模拟大脑的工作方式。这种分离增强了代理的注意力焦点，使其能够辨别出导航所需的相关空间信息。一个反思机制补充了这些策略，通过捕捉先前导航经验的反馈，促进持续学习和自适应重新规划。在VLN-CE基准上的广泛评估验证了Cog-GA的前沿性能及其模拟类似人类导航行为的能力。这项研究显著推动了战略性和可解释的VLN-CE代理的发展。

发布时间: 9/24/2024

查看原文

SPL：由大型语言模型驱动的苏格拉底学习乐园

对话式智能辅导系统（ITS）通过在互动对话中自动化复杂的人类辅导策略，显著推动了自适应和个性化学习。然而，在自然语言处理（NLP）领域，复制专家人类沟通的细微模式仍然是一个挑战。NLP的最新进展，特别是大型语言模型（LLMs），如OpenAI的GPT-4，通过基于广泛预训练知识提供类似人类且具有上下文意识的响应，提供了有前景的解决方案。受LLMs在各种教育任务（例如内容创建和总结、问题解决和自动反馈提供）中有效性启发，我们的研究引入了“学问游乐场”（SPL），一个由GPT-4模型驱动的对话式ITS，采用苏格拉底教学法以培养学习者的批判性思维。通过广泛的提示工程，SPL能够生成特定的学习场景，并促进高效的多轮辅导对话。SPL系统旨在增强个性化和自适应的学习体验，针对个人需求，特别是提高批判性思维技能。我们在作文任务中的试验结果表明，SPL有潜力改善辅导互动，并进一步增强对话式ITS的功能。我们的研究通过SPL实例，展示了LLMs如何增强对话式ITS，并扩大教育技术的可及性和有效性。

发布时间: 9/24/2024

查看原文

SynthAI: 一种用于自动化模块化高层次综合设计生成的多智能体生成式人工智能框架

在本文中，我们介绍了SynthAI，一种用于自动生成高层次综合（HLS）设计的新方法。SynthAI在结构化决策图中集成了ReAct代理、链式思维（CoT）提示、网络搜索技术和检索增强生成（RAG）框架。这种创新方法能够系统地将复杂的硬件设计任务分解为多个阶段和较小的、可管理的模块。因此，SynthAI生成的可综合设计能紧密符合用户指定的设计目标和功能要求。我们通过多个案例研究进一步验证了SynthAI的能力，突显其从单一初始提示生成复杂多模块逻辑设计的熟练度。SynthAI代码可在以下仓库获取：\url{https://github.com/sarashs/FPGA_AGI}。

发布时间: 9/24/2024

查看原文

基于本体、大数据和大语言模型的森林火灾管理决策支持系统

森林对于生态平衡至关重要，但野火作为森林损失的主要原因，带来了重大风险。火灾天气指数用于评估野火风险和预测资源需求，因而十分重要。随着传感器网络在医疗保健和环境监测等领域的兴起，语义传感器网络越来越多地用于收集风速、温度和湿度等气候数据。然而，处理这些数据流以确定火灾天气指数面临挑战，这凸显了有效森林火灾检测的重要性。本文讨论了使用Apache Spark进行早期森林火灾检测，利用气象和地理数据增强火灾风险预测。在我们之前为Monesterial自然公园管理森林火灾开发的语义传感器网络（SSN）本体和语义网规则语言（SWRL）基础上，我们扩展了SWRL，以使用大型语言模型（LLMs）和Spark框架改进决策支持系统（DSS）。我们通过Spark流处理实现了针对各种火灾情景的实时警报，并使用本体度量、基于查询的评估、LLMs得分精度、F1得分和召回率来验证我们的方法。

发布时间: 9/24/2024

查看原文

使用大语言模型进行概念引导：一种用于评估的用户实验

可解释人工智能（XAI）在提供透明且易于理解的复杂AI模型见解方面面临着重大挑战。传统的事后算法虽然有用，但往往难以提供可解释的解释。基于概念的模型通过引入概念的明确表示来增强可解释性，提供了一条有前景的途径。然而，现有关于自动概念发现方法的研究通常受限于低级概念、昂贵的人类标注需求以及有限的背景知识领域。在本研究中，我们探索了一种大型语言模型（LLM），特别是GPT-4，通过利用其领域知识和常识能力，为特定的图像分类设置生成对人类而言有意义的高级概念作为解释。我们通过提示使用数据中可用的最少文本对象信息来促进这一过程。为了评估输出结果，我们将LLM生成的概念与两种其他方法生成的概念进行了比较：人类生成的概念和ECII启发式概念归纳系统。由于没有确定的度量标准来判断概念对人类的可理解性，我们进行了一个人类研究以评估LLM生成的概念的有效性。我们的研究发现，尽管人类生成的解释仍然更为优越，但GPT-4生成的概念比ECII生成的更易于被人类理解。

发布时间: 9/24/2024

查看原文