arXiv:2402.17767v3 宣布类型: replace-cross
摘要:要构建能够在未见过的物体和未见过的环境中熟练操作的移动操纵系统,需要什么?本文使用展开 articulated 结构作为移动操纵的试验床来回答这一问题。具体来说,我们的重点是在没有任何先验信息的情况下完成端到端任务的表现,即机器人从能够看到新颖目标 articulated 物体的位置开始,然后接近物体并成功打开它。我们首先为此任务开发了一个系统,然后在13个实际测试地点进行了100多次端到端系统测试。我们的大规模研究揭示了一些令人惊讶的发现:a) 在此任务上,模块化系统表现优于端到端学习系统,即使端到端学习系统在1000多次示范的基础上进行训练,b) 感知,而非精确末端执行器控制,是任务成功的主要瓶颈,c) 在单独开发的状态-of-艺术展开参数估计模型在面对以机器人为中心的视角时表现不佳。总体而言,我们的研究结果强调了隔离开发管道组件的局限性,并强调了系统级研究的必要性,为构建可推广的移动操纵系统提供了一条实用的道路。该项目网站上提供了视频、代码和模型:https://arjung128.github.io/opening-articulated-structures/
arXiv:2309.08751v3 宣告类型: replace-cross
摘要: 随着现代人工智能架构的发展,已经发生了一种向端到端架构的转变。这种转变导致神经架构在没有特定领域偏见/知识的情况下进行训练,而是根据任务进行优化。在本文中,我们通过多样化的特征表示学习音频嵌入,在这种情况下,这些表示是特定领域的。对于跨越数百类声音分类的情况,我们学习了对多种音频属性(如音高、音色和神经表示)鲁棒且独立的嵌入,同时还通过端到端架构学习了这些嵌入。我们观察到,虽然手工程嵌入(例如基于音高和音色的嵌入)本身不足以超过纯端到端表示的效果,但将这些嵌入与端到端嵌入结合起来,显著提高了性能。这项工作将为端到端模型带来一些领域专业知识,以学习鲁棒且多样化的表示,超越仅训练端到端模型的性能。
arXiv:2308.15022v3 公告类型: replace-cross
摘要: 最近,大型语言模型(LLMs),如GPT-4,表现出色的对话能力,使它们能够就广泛的话题进行动态和上下文相关的对话。然而,面对长对话时,这些聊天机器人无法回忆起过去的信息,倾向于生成不一致的响应。为了解决这一问题,我们提出使用大型语言模型(LLMs)递归地生成摘要/记忆以增强长期记忆能力。具体而言,我们的方法首先激发LLMs记住小对话背景,然后使用先前的记忆和后续背景递归地生成新的记忆。最后,在最新记忆的帮助下,聊天机器人可以轻松生成高度一致的响应。我们在开放和封闭系统LMMs上评估了我们的方法,广泛使用的公开数据集的实验表明,我们的方法可以生成更加一致的长期对话响应。此外,我们展示了我们的策略能够很好地补充长期对话(例如,8K和16K)和检索增强的LLMs,带来进一步的长期对话性能。值得注意的是,我们的方法是有潜力使LLM能够建模极其长的上下文。代码和脚本稍后将发布。
arXiv:2308.04729v2 生成类型: 替换-交叉
摘要:随着深度生成模型的发展,音乐生成已经引起了越来越多的关注。然而,基于文本描述生成音乐,即文本到音乐,由于音乐结构的复杂性和高采样率要求,仍然具有挑战性。尽管这项任务十分重要,当前的生成模型在音乐质量、计算效率和泛化能力方面仍存在局限性。本文介绍了JEN-1,这是一种用于文本到音乐生成的通用高保真模型。JEN-1 结合了自回归和非自回归训练。通过上下文学习,JEN-1 可执行包括文本引导音乐生成、音乐填补和续写在内的多种生成任务。评估结果显示,JEN-1 在文本-音乐对齐和音乐质量方面优于现有最佳方法,同时保持了计算效率。我们的演示可在 https://jenmusic.ai/audio-demos 获取
arXiv:2307.11079v3 通知类型: replace-cross
摘要: 基于网络的入侵检测系统(NIDS)监控网络流量以识别恶意活动,从而成为对抗不断增加的信息基础设施攻击的前线防御。尽管具前景,但我们定量分析显示,现有方法在声明各种未知攻击(例如,一种基于SVM的方法对于两种不同未知威胁的F1值分别为9%和35%)或检测各种已知攻击(例如,基于GCN的最先进的方法对于Backdoor的F1值为31%,对于DDoS的F1值为93%)方面表现不一,这揭示了其背后的原因是流量特征的纠缠分布。这促使我们提出了3D-IDS,这是一种新的方法,旨在通过两步特征解缠和动态图扩散方案来解决上述问题。具体來說,我们首先通过基于互信息的无参数优化解缠流量特征,自动解缠各种攻击的数十乃至数百种复杂特征。这些解缠的特征将被送入记忆模型生成表示,之后进一步解缠以突显特定的攻击特征。最后,我们运用了一种新的图扩散方法,该方法能够动态融合网络拓扑进行空间-时间聚合,在演化的数据流中动态融合。通过这种方式,可以在加密流量中有效识别各种攻击,包括未知威胁和难以检测的已知攻击。实验表明了3D-IDS的优势。我们还证明了我们提出的两步特征解缠方法有助于NIDS的可解释性。
arXiv:2302.03669v4 通告类型: replace-cross
摘要:在智能交通系统(ITS)中,智能交通信号灯有望大大提升交通效率并减少拥堵。深度强化学习(DRL)是一种基于道路网络实时交通情况来适应性控制交通信号灯的有希望的方法。然而,传统的方 法可能难以扩展。在本文中,我们研究了使用深度强化学习来控制交通信号灯,并且理论分析和数值实验表明,智能行为“绿波”(即一辆车将依次看到一系列绿灯,而不需要在任何交叉口停车)在网格道路网络中自然地出现,这在有多条交叉街的道路中被证明是最佳策略。作为第一步,我们使用两个DRL算法解决两个场景下的交通信号灯控制问题。在一个单路口,我们验证了深度Q网络(DQN)算法提供了阈值策略;而在网格道路网络中,我们采用了深度确定性策略梯度(DDPG)算法。其次,数值实验表明,DQN算法提供了最优控制,而具有被动观察的DDPG算法具有产生自身高智能行为的能力,即“绿波”策略在网格道路网络中自然地出现。我们还在一个$5 \times 10$网格道路网络中验证了“绿波”模式。第三,“绿波”模式表明DRL算法产生了有利的解决方案,因为在实验结果中展示的“绿波”策略在特定的交通模型(有多条交叉街的道路)中被证明是最佳的。在单路口和网格道路网络中提供的策略都证明了DRL算法的扩展性。
arXiv:2202.03482v3 宣告类型: replace-cross
摘要:随着对神经网络预测策略理解的兴趣日益增长,概念激活向量(CAVs)已成为一种流行工具,用于在潜在空间中建模人类可理解的概念。通常,CAVs通过利用线性分类器来优化带有或不带有给定概念的样本的潜在表示的可分性来进行计算。然而,在本文中,我们展示了这种以可分性为导向的计算会导致偏离精准建模概念方向的实际目标。这种不一致性可以归因于干扰方向(即,与概念无关的信号)的巨大影响,这些信号被线性模型的滤波器(即,权重)拾取以优化类的可分性。为了解决这个问题,我们引入了基于模式的CAVs,专注于概念信号,从而提供更准确的概念方向。我们从CAVs与真实概念方向的对齐程度及其对CAVs应用的影响两个方面评估了各种CAV方法,包括概念敏感性测试和由于数据伪影引起的模型捷径行为的修正。我们使用VGG、ResNet、ReXNet、EfficientNet和Vision Transformer作为模型架构,在儿科骨龄、ISIC2019和FunnyBirds数据集上展示了基于模式的CAVs的益处。
arXiv:2503.07158v5 宣布类型: 替换
摘要: 将生成型人工智能(GenAI)集成到交通规划中有望彻底改进展望需求、基础设施设计、政策评估和交通模拟等任务。然而,本多学科领域需要系统性框架以指导GenAI的采用。在本综述中,我们,来自计算机科学和交通工程领域的多学科研究团队,提供了首个全面利用GenAI于交通规划的框架。具体而言,我们介绍了新的分类税则,将现有的应用和方法论分为两个视角:交通规划任务和计算技术。从交通规划的视角来看,我们探讨了GenAI在自动执行描述性、预测性、生成性、模拟性和可解释性任务以增强移动系统方面的作用。从计算技术的视角来看,我们详细介绍了数据准备、领域特定微调和推理策略(如检索增强生成和适用于交通应用的零样本学习)的进步。此外,我们还讨论了关键挑战,包括数据稀缺性、可解释性、偏见缓解以及开发与可持续性、公平性和系统效率等交通目标相一致的领域特定评估框架。本综述旨在弥合传统交通规划方法与现代人工智能技术之间的差距,促进合作与创新。通过应对这些挑战和机遇,我们期望激励未来的研究,确保生成AI在交通规划中的伦理、公平和影响。
arXiv:2502.12224v2 宣告类型:替换
摘要:大规模语言模型(LLMs)在各种任务中展现了令人印象深刻的性能,并且其在边缘场景中的应用引起了广泛关注。然而,由于其高内存需求,适合边缘场景的稀疏激活混合专家(MoE)模型受到了相对较少的关注。为了应对这一挑战,已有基于卸载的方法提出,但它们在专家预测方面面临困难。不准确的专家预测可能导致推断延迟延长。为了促进MoE模型在边缘场景中的应用,我们提出了一种名为Fate的卸载系统,旨在使MoE模型在资源受限的环境中实现高效推断。Fate背后的关键见解是,相邻层的门输入可以有效地用于专家预取,从而在不增加额外GPU开销的情况下实现高预测准确性。此外,Fate采用了一种倾向于浅层专家的缓存策略,将专家命中率提高到了99%。此外,Fate集成了针对缓存优化和IO效率定制化的量化策略。实验结果表明,与按需加载和基于专家激活路径的方法相比,Fate分别在填充速度上实现了高达4.5倍和1.9倍的加速,以及在解码速度上实现了高达4.1倍和2.2倍的加速,同时保持了推断质量。此外,Fate的性能改进在不同的内存预算下具有可扩展性。
arXiv:2406.01759v2 公告类型: 替换
摘要: 在本文中,我们介绍了一种针对知识图嵌入(KGE)模型的后处理和局部可解释的人工智能方法。这些模型在知识图完成中至关重要,但因其不透明、黑箱的性质而受到批评。尽管它们通过高维潜在表示成功捕捉了知识图的语义,但其固有的复杂性为可解释性带来了重大挑战。现有方法如Kelpie通过资源密集型扰动来解释KGE模型,而我们的方法直接解码由KGE模型编码的潜在表示,利用嵌入的平滑性,即相似嵌入反映了知识图中的相似行为的原则,这意味着相似嵌入是因为它们的图邻域看起来相似。这一原则通常被称为平滑性。通过在相似嵌入实体的子图邻域中识别符号结构(以三元组的形式),我们的方法识别出模型依赖的统计规律,并将这些洞见转化为易于理解的符号规则和事实。这一方法在抽象表示与预测输出之间架起了桥梁,提供了清晰、可解释的洞见。关键贡献包括一种新的后处理的、局部的KGE模型可解释人工智能方法,无需重训即可提供即时、忠实的解释,便于在大规模知识图上进行实时应用。该方法的灵活性使其能够生成基于规则、实例和类比的解释,以满足不同用户的需求。广泛的评估显示,该方法在提供忠实且精确的解释方面非常有效,增强了KGE模型的透明度和可信度。