arXiv:2503.19941v1 Announce Type: cross
摘要:在追求实现通用人工智能(AGI)的过程中,具身人工智能(AI)的重要性日益凸显。随着这一趋势的发展,将机器人与AGI相结合的研究变得更加突出。随着各种具身体现的不断设计,AGI 对多样化的具身体现的适应能力将变得尤为重要。我们介绍了一个新的挑战,称为“具身AI中的具身体现发现”,重点关注识别具身体现和总结神经信号功能的任务。该挑战涵盖了对AI身体的精确定义以及在动态环境中识别具身体现的复杂任务,而传统方法往往在这种环境下表现不佳。为了应对这些挑战,我们应用因果推断方法,并通过为测试算法开发针对虚拟环境的仿真器来评估这种方法。最后,我们通过实证测试验证了我们算法的有效性,在基于虚拟环境的各种场景中展示了它们的稳健性能。
arXiv:2503.19940v1 Announce Type: cross
摘要:类似于传统的视频生成,当前基于深度学习的天气预测框架往往缺乏明确的物理约束,这导致了不物理的输出,限制了其在实际预报中的可靠性。在众多需要适当表示的物理过程中,辐射起着最关键的作用,因为它驱动着地球的天气和气候系统。然而,由于传统的数值天气预报(NWP)模型固有的复杂性和高计算成本,准确模拟辐射传输过程仍然具有挑战性。在这里,我们提出了一种名为FuXi-RTM的混合物理导向深度学习框架,旨在提高天气预报准确性的同时保持物理一致性。FuXi-RTM将主要预报模型(FuXi)与一个固定的基于深度学习的辐射传输模型(DLRTM)代理相结合,后者高效地替代了传统的辐射参数化方案。这标志着第一个在实际中明确包含物理过程建模的基于深度学习的天气预报框架。在涵盖5年数据集的全面评估中,FuXi-RTM在3320种变量和预报历时组合中有88.51%的情况下优于其不加约束的版本,且在辐射通量预测方面有所改进。通过集成其他物理过程,FuXi-RTM开辟了既能提高准确性和物理一致性的新一代天气预报系统。
arXiv:2503.19937v1 Announce Type: cross
摘要:图文生成技术越来越受欢迎,但要生成所需的图像往往需要大量的提示工程。本文探讨了如何从参考图像中解码文本提示,我们将这一过程称为图像反向提示工程。该技术使我们能够从参考图像中获取见解,了解伟大艺术家的创作过程,并生成令人印象深刻的全新图像。为解决这一挑战,我们提出了一种称为自动反向提示优化(ARPO)的方法。具体而言,我们的方法通过逐步模仿梯度提示优化过程将初始提示精炼为高质量提示:1)从当前提示生成重构图像,以实现其指导能力;2)生成文本梯度,这些是候选提示,旨在减少重构图像与参考图像之间的差异;3)使用贪心搜索方法用文本梯度更新当前提示,以最大化提示与参考图像之间的CLIP相似性。我们将ARPO与几种基线方法进行比较,包括手工技巧、基于梯度的提示调整方法、图像字幕和数据驱动的选择方法。无论是定量还是定性结果都表明,我们的ARPO能够快速生成高质量的反向提示。更重要的是,我们可以通过直接编辑这些反向提示轻松创建具有多种风格和内容的新图像。代码将在公开发布。
arXiv:2503.19933v1 类别: cross
摘要:本文利用ARDL方法研究了1990年至2022年间AI创新、GDP增长、可再生能源利用、数字经济和工业化对美国二氧化碳排放的影响。研究结果观察到,AI创新、可再生能源使用和数字经济减少了二氧化碳排放,而GDP增长和工业化加剧了生态系统损害。单位根检验(ADF、PP和DF-GLS)表明各组成部分之间存在异质性整合水平,确保了ARDL分析的稳健性。补充方法(FMOLS、DOLS和CCR)验证了这些结果,提高了其可靠性。成对Granger因果关系检验发现二氧化碳排放与AI创新以及数字经济之间存在强大的单向联系,强调了它们在生态可持续性中的重要作用。这项研究强调了需要采取战略措施以促进公平增长,包括推进AI技术、采用绿色能源和进行环保的产业发展,以改善美国的环境质量。
arXiv:2503.20688v1 宣告类型: 新
摘要: 随着生产者和消费者(prosumers)的出现以及对更清洁能源解决方案的需求,电力网络管理的复杂性不断增加,这需要创新的方法以确保稳定性和效率。本文提出了一种在无模型框架下的新型强化学习方法,旨在在无需先验专家知识的情况下优化电力网络运营。我们引入了一个掩码拓扑动作空间,使代理能够在保证可靠服务的同时,利用状态逻辑作为选择适当动作的指南,探索减少成本的多种策略。通过在模拟的5个变电站环境中的20个不同情景下进行广泛的实验,我们证明了我们的方法能够一致地减少电力损失,并确保在潜在断电的情况下保持电网稳定性。这些结果强调了动态观测形式化与对手训练相结合的有效性,展示了在现代能源系统中自主管理解决方案的一个可行途径,甚至为该领域的基础模型提供了一种途径。
arXiv:2503.20676v1 宣告类型: 新
摘要: N-元关系事实表示了超过两个实体之间的语义关联。尽管最近的研究开发了链接预测(LP)方法来推断包含N-元关系事实的知识图谱(KGs)中缺失的关系,但这些方法通常局限于归纳设置。在预测未见过的实体时的全归纳设置仍然是一个重大挑战。由于现有方法主要基于实体嵌入,它们难以捕捉实体无关的逻辑规则。为了填补这一空白,我们提出了一种用于N-元关系事实的全归纳链接预测(ILP)的N-元子图推理框架。该框架在局部子图上进行推理,并具备很强的归纳推理能力,能够捕捉N-元模式。具体来说,我们引入了一种新的图结构=N-元语义超图=,以促进子图提取。此外,我们开发了一种子图聚合网络NS-HART,以有效地挖掘子图内的复杂语义关联。理论上,我们从评分函数优化的角度进行了全面分析,以阐明NS-HART在N-元ILP任务中的有效性。实验上,我们在一系列归纳基准上进行了广泛的实验,包括迁移推理(有或没有实体特征)和配对子图推理。结果显示,该N-元子图推理框架及其出色的归纳能力具有显著优势。本文的源代码已公开发布在https://github.com/yin-gz/Nary-Inductive-SubGraph。
arXiv:2503.20634v1 通告类型: 新
摘要:工艺、工作流程和指导方针是确保工业企业正常运行的核心:对于工厂生产线、机械设备或服务的成功运营,工业企业操作者通常依赖其过往的经验和专知。结果是这种程序性知识(PK)保持为默会知识,如是,难以高效有效地加以利用。本文介绍了PKO,即程序性知识本体,它可以实现对程序及其执行的显式建模,通过重用和扩展现有的本体实现这一目标。PKO 是基于从三个异构工业用例收集的需求构建的,并且可以被依赖于共享且互操作性表示形式的任何人工智能和数据驱动工具利用,以支持整个生命周期内对PK的治理。我们描述了其结构和设计方法,并通过讨论利用PKO进行程序性知识提取和利用的应用案例来阐述其相关性、质量和影响。
arXiv:2503.20425v1 通告类型: 新发表
摘要:在人类周围导航需要智能体在不确定性中进行推理,并考虑到周围人的信念和意图。在序贯决策框架下,以自我为中心的导航可以自然地表示为马尔可夫决策过程(MDP)。但是,社会导航还要求推理他人的隐藏信念,这不可避免地导致部分可观测马尔可夫决策过程(POMDP),其中智能体无法直接访问他人的心理状态。受心理论和知识规划的启发,我们提出了一种(1)基于神经符号模型的强化学习架构,用于社会导航,解决部分可观测环境下信念追踪的挑战;以及(2)一种视角转换操作符,用于信念估计,利用结构化多智能体环境中基于影响的抽象(IBA)的最新研究成果。
arXiv:2503.20124v1 宣告类型: new
摘要: 现代强化学习(RL)系统在复杂环境中展示了惊人的能力,例如电子游戏。然而,当学习新领域时,它们仍然在达到人类级别的采样效率和适应性方面有所欠缺。基于理论的强化学习(TBRL)是一种专门为此差距设计的算法框架。TBRL以认知理论为基础,利用结构化因果世界模型——“理论”——作为规划、泛化和探索的向前模拟器。尽管现有的TBRL系统对人类如何学习玩电子游戏提供了令人信服的解释,但它们面临一些技术限制:其理论语言较为受限,其规划算法不具有可扩展性。为了解决这些挑战,我们引入了TheoryCoder,这是一种TBRL的实例化实现,它利用hierarchic理论的表示和高效的程序合成方法以实现更强大的学习和规划。TheoryCoder为代理提供了通用的抽象(如“移动到”),然后通过从观察中学习低层过渡模型(由大型语言模型从观察中合成的Python程序)将这些抽象具体化到特定环境中。二阶规划算法可以利用这种层次结构来解决大型领域。我们证明了这种方法可以成功应用于各种困难的格状世界游戏,而在这些游戏中,直接合成策略的方法表现不佳。消融研究表明,使用层次抽象具有优势。
arXiv:2503.20105v1 宣布类型: 新
摘要: 最近在大语言模型(LLM)方面的进步在具身应用中彻底改变了运动生成模型。尽管 LLM 类型的自回归运动生成模型得益于训练可扩展性,但它们的标记预测目标与人类喜好之间仍然存在差异。因此,仅通过标记预测目标进行预训练的模型往往会生成偏离人类偏好的行为,从而使后续训练的偏好对齐变得至关重要,以生成人类偏好的运动。不幸的是,后续训练的偏好对齐需要大量的标记,这些标记是生成的运动,这在多代理设置中尤其成本高昂。最近,人们越来越有兴趣利用预训练演示来大规模生成用于后续训练对齐的偏好数据。然而,这些方法往往采用对抗性假设,将所有由预训练模型生成的样本视为不偏好样本。这种对抗性方法忽视了模型生成运动之间提供的有价值的偏好排名信号,最终降低了对齐效果,可能导致行为偏离。在本工作中,我们不再将所有生成样本视为等同地差,而是利用预训练演示中隐含的偏好,构建预训练模型生成样本之间的偏好排名,从而提供更细致的偏好对齐指导,而无需任何人类成本。我们将在大规模交通模拟中应用该方法,并通过仅依赖预训练演示中的隐含反馈,而不需额外的后续训练人类偏好标注或高计算成本,证明了其在提高预训练模型生成行为的现实性方面有效性,使得重量级的 1M 运动生成模型与最先进的基于模仿的大模型相当。