arXiv 论文列表

渲染世界：具有自监督3D标签的世界模型

作者: Ziyang Yan, Wenzhen Dong, Yihua Shao, Yuhang Lu, Liu Haiyang, Jingwen Liu, Haozhe Wang, Zhe Wang, Yan Wang, Fabio Remondino, Yuexin Ma

arXiv:2409.11356v2 Announce Type: replace-cross 摘要：端到端的基于视觉的自动驾驶不仅与激光雷达-视觉融合相比成本效益更高，而且与传统方法相比更可靠。为了实现一个经济且 robust 的纯视觉端到端自动驾驶系统，我们提出了 RenderWorld，一种基于视觉的端到端自动驾驶框架，使用自监督的基于高斯分布的 Img2Occ 模块生成 3D 占有标签，然后通过 AM-VAE 编码这些标签，并使用世界模型进行预测和规划。RenderWorld 采用高斯点积来表示 3D 场景并渲染 2D 图像，与基于 NeRF 的方法相比，大幅提高了分割精度并减少了 GPU 内存消耗。通过将 AM-VAE 分别应用于空气和非空气的编码，RenderWorld 实现了更精细的场景元素表示，从而在来自自回归世界模型的 4D 占有预测和运动规划方面取得了最先进的效果。

发布时间: 2/14/2025

查看原文

将神经算子与扩散模型集成以改善湍流建模中的频谱表示

作者: Vivek Oommen, Aniruddha Bora, Zhen Zhang, George Em Karniadakis

arXiv:2409.08477v2 宣告类型: replace-cross 摘要: 我们将神经运算符与扩散模型相结合，以解决神经运算符在湍流流动代理模型中的频谱限制问题。虽然神经运算符提供了计算效率，但在捕捉高频流动动力学方面存在缺陷，导致过度光滑的近似。为克服这一问题，我们通过条件化扩散模型来增强神经运算符对湍流结构的分辨率。我们的方法在不同的神经运算符和多样化的数据集上得到验证，包括高雷诺数射流流动模拟和实验性的Schlieren速度测量。所提出的方法显著提高了预测能量谱与真实分布的对齐程度，比仅使用神经运算符更为优越。这使得扩散模型通过扩散校正的自回归滚动来稳定更长时间的预测，如我们在本文中所展示。此外，适当的奇异值分解分析显示了在空间和时间上的增强频谱保真度。本文确立了一种新的范式，即将生成模型与神经运算符结合起来，以推进湍流系统代理建模，并且这种方法可以应用于涉及微观结构和高频内容的其他科学应用中。请参见我们的项目页面：vivekoommen.github.io/NO_DM

发布时间: 2/14/2025

查看原文

通过大型语言模型和结构化世界表示实现可扩展的任务规划

作者: Rodrigo P\'erez-Dattari, Zhaoting Li, Robert Babu\v{s}ka, Jens Kober, Cosimo Della Santina

arXiv:2409.04775v3 宣告类型: 替换-交叉摘要: 规划方法在解决大规模环境中的任务级问题时面临计算不可行性。本文探讨了通过利用LLMs中编码的常识知识来增强规划技术，以便应对这些复杂的场景。我们通过高效地使用LLMs从规划问题的状态空间中剪枝无关组件，大幅简化其复杂性，实现了这一目标。我们通过在家庭模拟环境中的大量实验以及使用7自由度操纵器的实际验证（视频: https://youtu.be/6ro2UOtOQS4），证明了该系统的有效性。

发布时间: 2/14/2025

查看原文

衡量AI辅助内容生成中的人类贡献

作者: Yueqi Xie, Tao Qi, Jingwei Yi, Xiyuan Yang, Ryan Whalen, Junming Huang, Qian Ding, Yu Xie, Xing Xie, Fangzhao Wu

arXiv:2408.14792v2 通知类型: replace-cross 摘要：随着生成人工智能（AI）的日益普及，越来越多的内容不再仅由人类创造，而是由在人类指导下运行的生成AI模型创建。这一转变为区分AI辅助作品中的原创性带来了显著挑战，因为人类在AI辅助作品中的贡献程度各不相同。本文提出了一个研究问题，即测量AI辅助内容生成中的人类贡献，并引入了一个基于信息论的框架来解决这一问题。通过计算人类输入与AI辅助输出之间的互信息相对于AI辅助输出自我信息的比例，我们量化了人类在内容生成中的信息贡献比例。我们的实验结果表明，提出的度量方法有效地区分了多个创造性领域的不同层次的人类贡献程度。我们希望这项工作为生成AI时代的AI辅助内容生成中的人类贡献测量奠定基础。

发布时间: 2/14/2025

查看原文

基于数据驱动的合流污水系统建模以提升城市可持续性：实证评估

作者: Vipin Singh, Tianheng Ling, Teodor Chiaburu, Felix Biessmann

arXiv:2408.11619v3 通知类型: 替换-交叉引用摘要：气候变化带来了复杂的挑战，极端天气事件变得越来越频繁且难以建模。这包括联合污水系统（CSS）的动态。在大雨期间，超负荷的CSS会将未处理的废水溢入地表水体。传统的方法通过物理模拟来预测极端降雨事件的影响，这在创建大型城市基础设施的模型时特别具有挑战性。深度学习（DL）模型为模拟下水道系统的复杂动态提供了经济有效的替代方案。在这项研究中，我们利用三年的测量数据，对几种最先进的DL时间序列模型在大型城市基础设施中预测下水道系统动态进行了全面的经验评估。特别地，我们探讨了DL模型在网络中断期间保持预测精度的潜力，通过比较全局模型，这些模型可以访问下水道系统内的所有变量，以及局部模型，这些模型仅限于从有限的本地传感器数据。我们的研究结果表明，DL模型即使在网络中断条件下也可以准确预测下水道系统负载的动态。这些结果表明，DL模型可以有效地帮助平衡CSS中的负载重分配，从而增强城市基础设施的可持续性和韧性。

发布时间: 2/14/2025

查看原文

大型语言模型能捕获代码功能等价性方面的哪些内容？

作者: Nickil Maveli, Antonio Vergari, Shay B. Cohen

arXiv:2408.11081v2 Announce Type: replace-cross 摘要:代码LLM，在大型代码语料库上预训练的代码LLM，在学习代码结构和语法的丰富表示方面取得了显著进展，并成功用于生成或分类代码片段。与此同时，理解它们是否能够做到这一点，以及它们能够做到何种程度，仍然是一个开放的问题。在本文中，我们通过引入SeqCoBench来解决这个问题，SeqCoBench是一个用于系统评估代码LLM捕捉代码功能等价性的基准。SeqCoBench包含超过20种代码转换，这些转换要么保留，要么改变Python程序的语义。我们在不同的设置中进行了广泛的评估，包括在最新的（代码）LLM上进行零样本和参数高效微调方法，以查看它们是否能够区分SeqCoBench中语义等价或不同的代码对。我们发现，这些LLM在性能上的差距与基于匹配的检索分数之间的差距很小，两种方法都表现出对代码语义理解的担忧性的不足。

发布时间: 2/14/2025

查看原文

LLMI3D：基于多模态语言模型的单张2D图像的3D感知

作者: Fan Yang, Sicheng Zhao, Yanhao Zhang, Hui Chen, Haonan Lu, Jungong Han, Guiguang Ding

arXiv:2408.07422v2 宣告类型: replace-cross 摘要：近年来，在自动驾驶、增强现实、机器人技术和沉浸式智能方面的最新进展迫切需要3D感知算法。然而，当前的3D感知方法，尤其是专化的小型模型，在开放场景中的泛化能力较差。另一方面，多模态大型语言模型（MLLM）在一般能力方面表现优异，但在3D任务中表现不佳，这是由于其较弱的3D局部空间对象感知、基于文本的几何数值输出较差以及无法处理相机焦距变化。为了解决这些挑战，我们提出了以下解决方案：空间增强局部特征挖掘，以改进空间特征提取；3D查询词素-衍生信息解码，以实现精确的几何回归；以及基于几何投影的3D推理，以处理相机焦距变化。我们对预训练的MLLM使用了参数高效的微调，并开发了LLMI3D，这是一种强大的3D感知MLLM。此外，我们构建了IG3D数据集，该数据集提供了细粒度的描述和问答标注。广泛的实验表明，我们的LLMI3D达到了最先进的性能，远超其他方法。

发布时间: 2/14/2025

查看原文

不变图学习与信息瓶颈相结合实现新颖分布泛化

作者: Wenyu Mao, Jiancan Wu, Haoyang Liu, Yongduo Sui, Xiang Wang

arXiv:2408.01697v2 宣布类型: 替换交叉摘要：图数据的离域外泛化（Graph Out-of-Distribution, GOOD）仍然是图学习中的一个主要挑战，因为图神经网络（GNNs）在分布转移下常常表现出严重的性能退化。不变学习（Invariant Learning），旨在提取不同分布下的不变特征，最近已经作为一种有前途的方法出现，用于处理OOD生成问题。尽管不变学习在欧几里得数据（例如，图像）的OOD问题上取得了巨大的成功，但在图数据中对其的探索仍然受到图的复杂性质的限制。现有研究，如数据增强或因果干预，要么在图操作过程中破坏不变性，要么由于缺乏用于因果部分的监督信号而导致可靠性问题。在本文中，我们提出了一种新的框架，称为基于信息瓶颈理论的不变图学习（InfoIGL），以提取图的不变特征并增强模型对未见分布的泛化能力。具体而言，InfoIGL 引入了一个冗余过滤器，用于压缩与环境因素无关的任务信息。结合我们设计的多层次对比学习，我们在下游分类任务中最大化相同类别图之间的互信息，极大地保留了用于预测的不变特征。InfoIGL 的一个吸引人的特点是，它在不依赖于不变性的监督信号的情况下具有很强的泛化能力。在合成数据集和真实世界数据集上的实验结果表明，我们的方法在图分类任务中的OOD泛化性能达到了最先进的水平。源代码可在 https://github.com/maowenyu-11/InfoIGL 获取。

发布时间: 2/14/2025

查看原文

ADBM：对抗扩散桥模型用于可靠的对抗净化

作者: Xiao Li, Wenxuan Sun, Huanran Chen, Qiongxiu Li, Yining Liu, Yingzhe He, Jie Shi, Xiaolin Hu

arXiv:2408.00315v3 Announce Type: replace-cross 摘要：最近，基于扩散的净化（DiffPure）已经识别为对抗样本的有效防御方法。然而，我们发现直接使用原始预训练的扩散模型进行对抗样本净化的DiffPure方法存在不足。这主要是由于净化噪声性能和数据恢复质量之间的固有权衡。此外，现有对DiffPure的评估可靠性的怀疑源于它们依赖于薄弱的自适应攻击。在本文中，我们提出了一种新的对抗扩散桥梁模型，称为ADBM（Adversarial Diffusion Bridge Model）。ADBM 直接从扩散的对抗数据构建回其原始干净样本的反向桥梁，增强原始扩散模型的净化能力。通过在各种场景下的理论分析和实验验证，ADBM 已经证明是一种更优且稳健的防御机制，为实际应用提供了巨大潜力。

发布时间: 2/14/2025

查看原文

FH-DRL：加速未知环境探索的指数双曲前沿启发式方法与深度 reinforcement 学习

作者: Seunghyeop Nam, Tuan Anh Nguyen, Eunmi Choi, Dugki Min

arXiv:2407.18892v2 宣告类型: replace-cross 摘要：在大规模或杂乱环境中自主机器人探索仍然是智能车辆应用中的一个核心挑战，其中部分或缺失的先验地图限制了可靠导航。本文介绍了FH-DRL，这是一种新颖的框架，它将可定制的启发式函数与双延迟DDPG（TD3）代理相结合，用于连续、高速的局部导航。提出的启发式函数依赖于指数-双曲距离评分，该评分平衡了即时接近性与远程探索收益之间的关系，并使用基于占用率的随机度量来实时计算环境的开放性和障碍密度。通过使用这些自适应度量对前沿进行排序，FH-DRL 目标是既高度信息性又具操作性的航点，从而最小化冗余路径和总探索时间。我们全面评估了FH-DRL在多个模拟和现实场景中的性能，证明其在旅行距离和完成时间方面的表现优于仅基于前沿或纯粹基于DRL的探索方法。在结构化的走廊布局和迷宫样拓扑结构中，我们的架构始终优于标准方法，如最近前沿、认知前沿探索和目标驱动自主探索。使用Turtlebot3平台的实际测试进一步证实了其在未见或杂乱室内空间中的鲁棒适应性。结果强调了FH-DRL作为一种有效且可推广的方法，在大型或部分已知环境中的前沿基探索方面的优势，为各类自主驾驶、工业和服务机器人任务提供了有前景的方向。

发布时间: 2/14/2025

查看原文