arXiv:2403.07404v3 更新类型: 替换-交叉
摘要:连续学习对于在具有挑战性、动态且通常资源受限的环境中应用机器学习至关重要。然而,灾难性遗忘——在获取新信息时覆盖已学习的知识——仍然是一个主要挑战。在这项工作中,我们研究了连续学习过程中神经网络层中的中间表示,发现这些表示较少遗忘,突显了它们加速计算的潜力。受这些发现的启发,我们提出了使用辅助分类器(ACs)来增强性能,并且证明将ACs集成到各种连续学习方法中可以在多种评估设置下一致地提高准确性,平均相对增益达到10%。我们还利用ACs在不牺牲准确性的前提下将推理的平均成本降低10-60%,使模型能够在计算所有层之前返回预测结果。我们的方法为连续学习提供了一个可扩展且高效的解决方案。
arXiv:2302.03669v3 通知类型: 交叉替换
摘要:智能交通信号灯在智能交通系统(ITSs)中被设想能够极大地提高交通效率并减少拥堵。深度强化学习(DRL)是一种有望根据道路网络中的实时交通状况自适应控制交通信号灯的方法。然而,传统方法可能会遭受可扩展性较差的问题。本文我们研究了深度强化学习控制交通信号灯的方法,理论分析和数值实验表明,在网格道路网络中自然地出现了智能行为“绿波”(即一辆车将会看到绿灯依次亮起的渐进连锁,而无需在任何交叉口减速),并被证明是多条交叉街道道路上最优的策略。作为第一步,我们使用两种DRL算法处理交通信号灯控制问题的两种场景。在一个单一道路交叉口,我们验证了深度Q网络(DQN)算法提供了阈值策略;而在网格道路网络中,我们采用了深度确定性策略梯度(DDPG)算法。其次,数值实验表明,DQN算法提供了最优控制,而DDPG算法在被动观测的情况下具有自主产生高级智能行为的能力,即“绿波”策略自然地出现了。我们还在一个5×10网格道路网络中验证了“绿波”模式。第三,“绿波”模式证明了DRL算法生成了有利的解决方案,因为实验结果中的“绿波”策略在特定的交通模型(多条交叉街道的街道)中被证明是最优的。在单一道路交叉口和网格道路网络中提供的策略表明了DRL算法的可扩展性。
arXiv:2501.08324v2 通知类型: 替换
摘要:阿尔茨海默病分析模型(ADAM)是一种基于多代理推理的大语言模型(LLM)框架,旨在集成和分析多模态数据,包括微生物组谱型、临床数据集和外部知识库,以增强对阿尔茨海默病(AD)的理解和分类。通过利用具有LLM的代理系统,ADAM可以从多种数据来源中产生洞察,并用文献驱动的证据来解释这些发现。与XGBoost的比较评估显示,ADAM的平均F1分数有显著提高,变异度显著降低,突显了其稳健性和一致性,尤其是在利用人类生物数据时。尽管目前仅针对具有两种数据模态的二元分类任务,未来的迭代将致力于整合更多数据类型,如神经成像和外周生物标志物,并将这些数据扩展以预测疾病进展,从而扩大ADAM在AD研究和诊断应用中的可扩展性和适用性。
arXiv:2412.07446v3 公告类型: 替换
摘要: 生成预训练转换器(GPT)模型是否仅通过预测下一个标记便隐式地学习了一个世界模型,从而一次生成一个序列?我们通过推导 GPT 中注意力机制的因果解释并建议由此解释产生的一种因果世界模型来解答这个问题。此外,我们提出 GPT 模型在推理期间可以用于输入序列的零样本因果结构学习,并提供了一个置信度评分。我们在使用奥塞罗和国际象棋策略游戏的设置和规则进行的受控环境中进行了实证评估。一个预训练于具有赢得意图的实际游戏的 GPT 模型被测试在分布外合成数据上,这些数据由随机合法走法序列组成。我们发现,对于其中因果结构被注意力机制高置信度编码的分布外序列,GPT 模型很可能生成合法的下一个走法。当 GPT 模型生成非法走法时,它也无法捕捉到任何因果结构。
arXiv:2411.14995v2 通知类型: 修改
摘要: 仅从行动轨迹学习 STRIPS 行动模型是一个具有挑战性的问题,因为它涉及到学习领域谓词。在本文中,引入了一种新型的方法,这种方法像著名的LOCM系统一样是可扩展的,但像SAT方法一样是正确且完备的。此外,该方法是通用的,并不对隐藏领域或谓词的数量及其arity施加任何限制。新的学习方法基于一种新的、高效的测试,该测试检查谓词是否受特定行动模式的影响是连贯的,具体来说,这些模式具有特定的参数位置。通过测试的谓词和行动模式为学习得到的领域提供了基础,然后可以轻松地添加先决条件和静态谓词。该新方法从理论上和实验上进行了研究。对于实验部分,方法被评估了从标准经典领域(如8-拼图)获得的轨迹和图,这些轨迹和图涉及数以十万计的状态和转换。然后验证了学习得到的表示在更大的实例上。
arXiv:2411.05348v2 宣告类型:替换
摘要:大规模语言模型(LLMs)在智能化决策问题中展现出了巨大潜力,在从游戏AI系统到复杂的战略规划框架等各种应用中都表现出了前所未有的能力。然而,过去十年广泛用于验证决策算法的StarCraft II平台尚未为这一新兴领域提供实质性的支持。为了应对LLMs无法直接对接pysc2后端数百个动作的问题以及缺乏原生支持多智能体(MA)协作的情况,我们提出了LLM-PySC2环境。这是首个提供LLMs完整pysc2动作空间和足够多模态信息及游戏维基知识的环境。通过异步查询架构,该环境高效地与维持恒定延迟的LLMs交互,无论智能体群体规模如何。在实验中,我们在宏决策和微观操作场景中评估了LLMs的决策表现,包括传统的StarCraft II多智能体挑战(SMAC)任务以及一系列新提出的任务。结果表明,LLMs在复杂场景中具备取得胜利的潜力,但无法持续生成正确的决策,特别是在恢复的pysc2动作空间和MA设置中。没有任务相关的指示,预训练模型面临幻觉和低效协作等问题。我们的研究表明,在大规模模型时代,StarCraft II仍然是一项挑战,这表明开发先进的LLM决策系统还有大量工作要做,而提出的LLM-PySC2环境将支持以LLM为基础的决策方案的未来开发。
arXiv:2403.04577v2 提交类型: 替换
摘要:近年来,人们对解决表解析任务的兴趣不断增加,但这些任务仍然依赖于可能过于简化的现有数据集。这可能降低了数据集在全面评估中的有效性,并未能准确反映现实世界中表格的真实面貌。为了丰富现有的基准数据集,我们提取并标注了一个新的、更具挑战性的数据集。提议的 Wiki-TabNER 数据集包含复杂的表格,每个单元格包含多个实体,命名实体使用 DBpedia 类进行标注。该数据集专门设计用于解决表格内的命名实体识别 (NER) 任务,但它也可以用作更具有挑战性的数据集来评估实体链接任务。在本文中,我们描述了 Wiki-TabNER 数据集的特点及其标注过程。此外,我们提出了一种评估新大规模语言模型在表格内 NER 任务上的方法框架。最后,我们进行了定性分析,以深入了解模型遇到的挑战,并理解所提议数据集的局限性。
arXiv:2311.09830v4 公告类型:替换
摘要:大规模语言模型(LLMs)已革新了众多NLP任务。关于它们在推理和规划方面的能力,存在活跃的辩论。先前的工作基于手动将三个PDDL领域转换为自然语言(NL)提示来评估后者。在这里,我们自动化了这一转换步骤,展示了如何利用LLM自动从PDDL输入生成NL提示。我们自动生成的NL提示在LLM规划性能方面与之前的手动生成的提示相当。此外,自动化使我们能够运行更大规模的实验,首次提供了对PDDL中LLM规划性能的广泛评估。我们的NL提示在性能上优于PDDL提示和简单的基于模板的NL提示。相比之下,LLM规划远远落后于符号规划器;但在某些领域,我们最好的LLM配置使用LM-cut扩展得比A$^\star$更远。
arXiv:2505.01425v1 交叉类型公告
摘要:传统的人体动作建模将动作生成和估计分离为独立的任务,并使用专门的模型。动作生成模型专注于从文本、音频或关键帧等输入中创建多样且真实的动作,而动作估计模型则致力于从视频等观察中重构准确的动作轨迹。尽管动作生成和估计共享时间动态和运动学的底层表示,这种分离限制了这两项任务之间的知识转移,并需要分别维护这些模型。我们提出了一种统一的人体动作模型GENMO,它在单一框架中桥接了动作估计和生成。我们的关键洞察是将动作估计重构成受限的动作生成,输出的动作必须精确地满足观察到的条件信号。借助回归和扩散的协同作用,GENMO实现了准确的整体动作估计,同时能够支持多样化的动作生成。我们还引入了一种估计引导的训练目标,利用带有2D标注和文本描述的野外视频增强生成多样性。此外,我们的新架构可以处理不同时间间隔内的可变长度动作和混合多模态条件(文本、音频、视频),提供灵活的控制。这种统一的方法带来了协同效益:生成先验在复杂的遮挡等条件下提高了估计动作的准确性,而多样化的视频数据则增强了生成能力。广泛的实验表明,GENMO作为一种通用框架,在单一模型中成功处理了多种人体动作任务,效果显著。
arXiv:2505.01396v1 类别:交叉学科
摘要:自我改进要求机器人系统首先从人类提供的数据中学习,然后通过与环境的交互逐渐增强其能力。这类似于人类通过持续练习来提高技能的方式。然而,实现有效的自我改进具有挑战性,主要原因在于机器人在交互过程中倾向于重复其现有的能力,通常无法生成新的、有价值的数据供学习。在本文中,我们确定了成功实现自我改进的关键:模态级探索与数据选择。通过在策略执行过程中引入模态级探索机制,机器人可以产生更多样和多模态的交互。同时,我们从这些交互中选择最有价值的试验和高质量的片段进行学习。我们在模拟基准测试和实际实验中成功展示了有效的机器人自我改进。自我改进的能力将使我们能够以更低的成本开发出更 robust 和更高成功率的机器人控制策略。我们的代码和实验脚本可在 https://ericjin2002.github.io/SIME/ 获取。