arXiv:2410.20092v2 宣告类型: replace-cross
摘要:离线目标导向强化学习(GCRL)在强化学习(RL)中是一个主要问题,因为它提供了一种简单、无监督且跨领域的途径,可以从未标记数据中获取多样化的行为和表示,而无需奖励。尽管这一设置的重要性不言而喻,但我们缺乏一个能够系统评估离线GCRL算法能力的标准基准。在本文中,我们提出了OGBench,这是一个新的高质量基准,用于离线目标导向RL算法研究。OGBench包括8种类型的环境、85个数据集以及6种代表性离线GCRL算法的参考实现。我们设计了这些具有挑战性和现实性的环境和数据集,直接探讨不同算法的能力,例如缝合、长时域推理以及处理高维输入和随机性的能力。虽然代表性算法在先前的基准上可能表现出相似的排名,但我们的实验揭示了这些不同能力的明显优势和劣势,为构建新的算法提供了坚实的基础。项目页面:https://seohong.me/projects/ogbench
arXiv:2410.19313v3 宣布类型: replace-cross
摘要: FP8训练已成为提高训练效率的一种有前途的方法。现有的框架通过将FP8计算应用于线性层,同时保留优化器状态和激活的高精度,从而加速训练,但这未能充分利用内存使用。本文介绍了COAT(压缩优化器状态和激活的FP8训练框架),这是一种新型的FP8训练框架,旨在在训练大规模模型时显著减少内存占用。COAT通过两项关键创新解决了当前的限制:(1) 动态范围扩展,这使得优化器状态分布更紧密地与FP8表示范围对齐,从而减少量化误差;(2) 混合粒度激活量化,这通过结合张量级和分组量化策略优化激活内存。实验表明,与BF16相比,COAT可以将端到端的训练内存占用减少1.54倍,同时在各种任务(如大型语言模型预训练和微调以及视觉语言模型训练)中几乎实现无损性能。COAT还实现了与BF16相比1.43倍的端到端训练加速,与TransformerEngine的加速相当或超过。COAT使在较少的GPU上高效训练大规模模型成为可能,并在分布式训练设置中使批次大小翻倍成为可能,提供了一种扩展大规模模型训练的实用方案。相关代码可在https://github.com/NVlabs/COAT获得。
arXiv:2410.14682v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)的近期进展激发了将这些技术应用于具身任务的种种尝试,特别是集中在高级任务计划和任务分解方面。为进一步探索这一领域,我们提出了一个新的具身任务规划基准——ET-Plan-Bench,专门用于使用LLMs进行具身任务规划。该基准包含了一个可控制且多样的具身任务集,任务在难度和复杂性方面有所不同,旨在评估LLMs在具身任务理解方面的两个关键维度:空间(空间关系限制、目标物体的遮挡)和时间及因果理解。通过使用多源模拟器作为后台模拟器,它可以为LLMs提供即时环境反馈,从而允许LLMs动态地与环境互动,并根据需要重新规划。我们在提出的基准上评估了最先进的开源和非开源基础模型,包括GPT-4、LLAMA和Mistral。虽然它们在简单的导航任务中表现良好,但在需要对空间、时间和因果关系有深刻理解的任务面前,其性能会显著下降。因此,我们的基准区别于一种大规模的、可量化、高度自动化的、具有精细粒度的诊断框架,对最新的基础模型构成了重大挑战。我们希望它能激发并推动基础模型在具身任务规划方面的进一步研究。
arXiv:2410.14630v2 通知类型: 交叉替换
摘要:在预测多时间序列时,考虑到每个序列的个别特征可能会具有挑战性。为了解决这个问题,现代的时间序列分析深度学习方法结合了一个共享的(全局)模型和特定于每个时间序列的局部层,通常以可学习嵌入的形式实现。理想情况下,这些局部嵌入应该编码每个序列独特动态的意义表示。然而,当这些嵌入作为预测模型的参数端到端学习时,它们可能会变成仅仅是序列标识符。然后,共享的处理块可能会依赖于这些标识符,限制了它们在新上下文中的可移植性。在本文中,我们通过调查方法来正则化时间序列处理中局部可学习嵌入的学习来解决这一问题。具体来说,我们进行了同类中第一个广泛的实证研究,并展示了这些正则化如何在广泛采用的架构中一致地提高性能。此外,我们展示了通过嵌入扰动来阻止局部和全局参数的共同适应的方法在这种情况下特别有效。在这方面,我们纳入了多个基于扰动的正则化方法的比较,甚至在训练过程中定期重置嵌入。获得的结果为理解可学习局部参数与共享处理层之间的相互作用提供了重要贡献:现代时间序列处理模型中的一个关键挑战,并朝着开发有效的时序基础模型迈出了一步。
arXiv:2410.13166v4 公告类型:替换交叉
摘要:先前的方法提出通过使用手设计的规则丢弃基础模型中特定部分的上下文来缓解现代基础模型的日益上升的成本,同时试图保持其原始性能。我们通过引入神经注意力记忆模型(NAMMs)克服了这一权衡,引入了一个学习记忆管理网络以改进transformer的性能和效率。我们基于预训练的transformer进化出NAMMs,为每个层和注意力头提供不同的潜在上下文,重点关注最相关的信息。NAMMs可以应用于任何使用自我注意的模型,因为它们仅根据产生的注意力矩阵中的值进行条件化。通过对一小组问题进行学习,我们在多个长上下文基准测试中实现了显著的性能提升,同时将模型的输入上下文削减到原始大小的一小部分。我们展示了我们条件化的通用性,使得仅在语言上训练的NAMMs能够转移到完全新的transformer架构上,即使是在不同的输入模态之间,它们的好处也延伸到视觉和强化学习领域。
arXiv:2410.09795v4 宣告类型: 替换-交叉
摘要:预测分子基态构象(即能量最小化构象)对于许多化学应用,如分子对接和属性预测至关重要。经典的能量基模拟在解决这个问题时耗时较长,而现有的基于学习的方法在计算效率方面占有优势,但牺牲了准确性和可解释性。在本文中,我们提出了一个新颖且有效的方法,以弥合能量基模拟和基于学习策略之间的差距,设计并学习一个受Wasserstein梯度流驱动的SE(3)-Transformer,称为WGFormer,用于预测分子基态构象。具体而言,我们的方法在自编码框架中处理这项任务,利用所提出的WGFormer编码低质量构象,并由多层感知机(MLP)解码相应的基态构象。WGFormer的架构对应于Wasserstein梯度流——它通过最小化定义在原子的潜在混合模型上的能量函数来优化分子构象,从而显著提高性能和可解释性。广泛的实验表明,我们的方法在与最先进的竞争对手相比时始终表现出色,提供了一个新的且富有洞察力的范式来预测分子基态构象。
arXiv:2410.08925v3 宣告类型:替换-交叉
摘要:原型部分网络为黑箱深度学习模型提供了可解释的替代方案。然而,这些网络中的许多依赖于欧几里得原型,这可能会限制它们的灵活性。本工作提供了一系列不同原型形式的全面概述。在CUB-200-2011、斯坦福汽车和牛津花朵数据集上的实验展示了这些不同形式的有效性和灵活性。
arXiv:2410.06472v2 通知类型: 交叉替换
摘要:机器人系统的进步已经颠覆了众多行业,然而其操作往往需要专门的技术知识,限制了非专家用户的访问。本文介绍了ROS(Robot Operating System)的AI驱动代理ROSA(Robot Operating System Agent),它在机器人操作系统(ROS)和自然语言接口之间架起了桥梁。通过利用最先进的语言模型并集成开源框架,ROSA 允许操作员使用自然语言与机器人进行交互,将命令转换为操作,并通过定义清晰的工具与ROS进行接口交互。ROSA 的设计是模块化的,且可扩展,能够无缝集成到包括 ROS1 和 ROS2 在内的各种系统中,并通过参数验证和约束执行等安全机制确保安全可靠的运行。虽然ROSA最初是为ROS设计的,但它可以扩展以与其它机器人中间件兼容,以最大化在不同任务中的兼容性。ROSA 通过普及复杂机器人系统的访问,提高了人机交互的能力,为所有技术水平的用户提供多种模态的功能,如语音集成和视觉感知。伦理问题得到了全面考虑,并遵循了如机器人三定律等基础原则,以确保AI的集成促进安全、透明、隐私和问责。通过使机器人技术更加用户友好和可访问,ROSA 不仅提高了操作效率,还为机器人以及未来任务操作中的负责任的AI使用设立了新的标准。本文介绍了ROSA的架构,并在JPL的火星试验场、一个实验室和一个模拟中展示了使用三种不同机器人进行的初步模拟操作。ROSA的核心库作为开源软件提供。
arXiv:2410.01706v2 宣告类型: replace-cross
摘要:随着多智能体强化学习(MARL)向着解决更大规模和更复杂问题的方向前进,算法表现出以下关键性质的重要性不断增加:(1) 强大的性能,(2) 内存效率以及 (3) 可扩展性。在这项工作中,我们提出了 Sable,这是一种高性能、内存高效且可扩展的序列建模方法,用于 MARL。Sable 通过将 Retentive Networks 中的保留机制进行调整,实现在具有长期上下文记忆的多智能体观察方面的计算效率的处理以实现时间推理。通过在六个不同环境中的广泛评估,我们展示了 Sable 能够在众多多样化任务(45个测试任务中的34个)中显著超越现有最先进的方法。此外,随着智能体数量的增加,Sable 维持性能,能够处理超过一千个智能体的环境,并且其内存使用量呈现线性增加。最后,我们进行了消融研究以分离 Sable 性能提升的来源,并确认了其高效的计算内存使用。
arXiv:2409.11456v3 宣布类型:替换交叉
摘要:在全球范围内,宫颈癌仍然是第四常见的女性恶性肿瘤。1 对于局部晚期宫颈癌,同步放化疗(CRT)作为主要的确切治疗方法,包括外部束辐射后继以近距离放射治疗。2 在放疗治疗计划中,常规轮廓描绘宫颈区域的目标肿瘤、相关妇科解剖结构以及相邻的器官危及组织(OARs)是不可或缺的。然而,手动轮廓描绘这些结构既耗时又劳动密集,并且存在已知的观察者间变异,这些变异可能会影响治疗结果。虽然已经开发了多种工具,利用计算机断层扫描(CT)图像自动分割OARs和高风险临床肿瘤体积(HR-CTV),3,4,5,6 但利用常规T2加权(T2w)磁共振成像(MRI)开发基于深度学习的肿瘤分割工具满足了临床需求,以改善常规对照结构和宫颈癌的轮廓描绘,从而提高放疗计划的质量和一致性。本研究将一款新型的深度学习模型(PocketNet)应用于T2w MRI上的宫颈、阴道、子宫以及肿瘤的分割。采用五折交叉验证训练PocketNet架构,对其进行性能评估。PocketNet在肿瘤分割上的平均Dice-Sorensen相似系数(DSC)超过70%,在器官分割上的DSC超过80%。在《癌症影像档案库》(TCIA)提供的公开数据集上进行验证,模型表现出良好的稳健性,在肿瘤分割上的DSC得分为67.3%,在器官分割上的DSC得分为80.8%。这些结果表明,PocketNet能够应对对比度协议的变化,提供对感兴趣区域的可靠分割。