LLM2D

arXiv 论文列表

arXiv:2504.05908v1 Announce Type: 多选择 摘要:驾驶场景理解是一个关键的实际问题,涉及解释和关联驾驶环境中各种元素,如车辆、行人和交通信号。尽管在自动驾驶方面取得了进展,但传统的管道依赖于确定性模型,这些模型无法捕捉到现实世界驾驶的概率特性和内在不确定性。为此,我们提出了PRIMEDrive-CoT,一种新的在驾驶场景中具有不确定性意识的对象交互和链式思考(CoT)推理模型。特别是,我们的方法结合了基于LiDAR的3D物体检测和多视图RGB参考,以确保可解释和可靠的场景理解。不确定性与风险评估,以及对象交互,通过贝叶斯图神经网络(BGNNs)进行概率推理,以便在模棱两可的条件下进行推理。通过利用对象动力学和上下文线索的链式思考来促进可解释决策,并通过Grad-CAM可视化突出显示注意力区域。在DriveCoT数据集上的全面评估表明,PRIMEDrive-CoT在现有的CoT和风险感知模型中表现出色。
发布时间: 4/9/2025
查看原文
作者: Luca Barco, Giacomo Blanco, Gaetano Chiriaco, Alessia Intini, Luigi La Riccia, Vittorio Scolamiero, Piero Boccardo, Paolo Garza, Fabrizio Dominici
arXiv:2504.05882v1 类型:交叉 摘要:三维语义分割在城市建模中起着关键作用,使我们能够对城市环境进行详细的理解和测绘。本文介绍了一个新的名为Turin3D的航空LiDAR数据集,该数据集覆盖了意大利都灵市中心约1.43平方公里的区域,包含近7000万点。我们描述了数据收集过程,并将Turin3D与文献中先前提出的数据集进行了比较。由于标注过程的复杂性和耗时性,我们并未完全标注该数据集;然而,我们在验证集和测试集上进行了手动标注,以确保对所提技术的有效评估。我们首先测试了在现有数据集上训练的一些点云语义分割模型在Turin3D上的性能,并通过利用未标注训练集的半监督学习技术改进了它们的性能。该数据集将公开提供,以支持户外点云分割的研究,特别是在训练集缺乏真实标注的情况下,半监督和自监督学习方法尤为重要。
发布时间: 4/9/2025
查看原文
arXiv:2504.05857v1 类型:交叉 摘要:对于学习者来说,在寻找不熟悉的美国手语(ASL)手势时具有挑战性,因为与口头语言不同,他们无法通过输入文本查询来查找不熟悉的手势。孤立手势识别技术的进步使得基于视频的手语词典得以创建,用户可以提交一个视频并收到最接近的手势列表。此前的人机交互(HCI)研究使用了Wizard-of-Oz原型,探索了ASL词典的界面设计。在此基础上,我们采纳了这些研究的设计建议,并利用最先进的手势识别技术开发了一种自动化的基于视频的手语词典。我们还呈现了十二名初学者ASL学习者使用该词典进行视频理解任务和问答任务的研究观察结果。我们的结果解决了此前Wizard-of-Oz研究未涵盖的人机交互挑战,包括录制和重新提交手势、不可预测的输出、系统延迟和隐私问题。这些见解为设计和部署基于视频的手语词典系统提供了指导。
发布时间: 4/9/2025
查看原文
作者: Xingzu Liu, Songhang deng, Mingbang Wang, Zhang Dong, Le Dai, Jiyuan Li, Ruilin Nong
arXiv:2504.05855v1 交叉类型宣布 摘要:大规模语言模型在各种自然语言处理任务中取得了显著进展,包括共指消解。然而,传统方法往往由于缺乏语法规则和语义信息的整合而在有效区分共指关系方面表现不佳。本研究介绍了一种创新框架,旨在通过利用预训练语言模型来增强共指消解。我们的方法结合语法解析和语义角色标注,以准确捕捉共指关系的细微差异。通过使用最先进的预训练模型来收集上下文嵌入,并应用注意力机制进行微调,我们提高了共指任务的性能。跨多个数据集的实验结果显示,我们的方法超越了传统的共指消解系统,在消解引用方面取得了显著的准确率。这一发展不仅改善了共指消解的结果,还对依赖精确语义理解的其他自然语言处理任务产生了积极影响。
发布时间: 4/9/2025
查看原文
arXiv:2504.05852v1 Announce Type: cross 摘要:生成模型在文本、图像和视频合成等领域已经显示出非凡的成功。在本文中,我们探索生成模型在流体力学中的应用,特别是在湍流模拟方面的应用,其中经典的数值求解器计算成本较高。我们提出了一种基于随机插值的新颖随机生成模型,该模型能够在引入如能量稳定性、散度自由等物理约束的同时进行概率性预测。与通常对底层物理法则漠不关心的传统随机生成模型不同,我们的方法通过使随机插值的参数成为可学习的系数,嵌入了能量一致性。我们通过一个基准湍流问题——柯尔莫哥洛夫流——评估了该方法,展示了与自回归条件性扩散模型(ACDMs)和PDE-Refiner等最先进的替代方法相比,我们的方法在准确性和稳定性方面具有优越性。此外,我们的方法在标准随机插值方法所能稳定处理的显著更长时间段内也能取得稳定的结果。我们的研究结果突显了物理意识生成模型在加速和增强湍流模拟方面的潜力,同时保持了基本的守恒特性。
发布时间: 4/9/2025
查看原文
作者: Steeve Cuthbert Marcelyn, Yucen Gao, Yuzhe Zhang, Xiaofeng Gao, Guihai Chen
arXiv:2504.05846v1 交叉公告类型:cross 摘要:GPS启用设备的数量激增导致积累了大量历史轨迹数据。通过利用这些数据进行机器学习模型的训练,研究人员开发出了针对个性化路径推荐(PRR)问题的新颖数据驱动方法。与传统的算法,如迪杰斯特拉最短路径算法相比,这些新颖的算法具有在数据中识别和学习模式的能力,从而有助于生成更个性化的路径。然而,一旦这些模型被训练好,其应用仅限于生成与训练模式相匹配的路径。这一限制使它们对未来新场景的适应性较差,面对新的可能场景可能需要部署多种机器学习模型,这在成本上可能是高昂的,因为每个模型都需要单独训练。受大型语言模型(LLMs)领域最近进展的启发,我们利用它们的自然语言理解能力开发了一种统一模型,以解决PRR问题,并且能够无缝适应新场景而无需额外训练。为实现这一点,我们将LLMs在训练过程中获得的广泛知识与进一步的外部手工艺品上下文信息访问相结合,类似于RAG(检索增强生成)系统,增强了其根据用户定义的要求生成路径的能力。在不同数据集上的广泛实验显示,LLMs在PRR问题上的性能得到了显著提升。
发布时间: 4/9/2025
查看原文
作者: Dolton Fernandes, Pramod Kaushik, Harsh Shukla, Bapi Raju Surampudi
arXiv:2504.05840v1 Announce Type: 交叉 摘要:传统的强化学习(RL)算法假设数据分布是均匀的或主要均匀的。然而,在自动驾驶或动物在自然界中游荡等大多数真实世界的应用场景中,这并不成立。一些经历经常被遇到,而剩下的大部分经历则很少发生;结果生成的分布称为Zipfian分布。受互补学习系统理论的启发,提出了一个从Zipfian分布中学习的架构,其中重要但罕见的轨迹以无监督的方式被发现。该提案包括一个包含优先记忆模块的经验性记忆缓冲区,以确保重要但罕见的轨迹被保存更长时间,以解决Zipfian问题,这需要以样本有效的方式进行回报分配。随后,这些经历从经验性记忆中重置,并赋予加权的重要性,形成要执行的轨迹。值得注意的是,所提出的架构是模块化的,可以整合到任何RL架构中,并在多个Zipfian任务上比传统架构表现出更好的性能。我们的方法在所有三个任务和所有三个评估指标(Zipfian、均匀分布和稀有准确性)上显著优于IMPALA,并且在大多数被认为是具有挑战性的 Atari 环境中也提供了改进。
发布时间: 4/9/2025
查看原文
arXiv:2504.05838v1 声称类型: 交叉 摘要:近年来,图像提示适配器(IP-Adapter)已被越来越多地集成到文本到图像扩散模型(T2I-DMs)中,以提高可控性。然而,本文揭示了带有IP-Adapter的T2I-DMs(T2I-IP-DMs)能够启用一种全新的脱狱攻击,即接管攻击。我们展示了,在上传不可感知的图像空间对抗样本(AEs)的情况下,攻击者可以重新利用大量无辜用户,让由T2I-IP-DMs驱动的图像生成服务(IGS)脱狱,并引导公众诋毁服务提供商。更糟糕的是,IP-Adapter对开源图像编码器的依赖性降低了制作AEs所需的知识。大量实验验证了接管攻击的技术可行性。鉴于揭示的威胁,我们调查了几种现有的防御措施,并探索将IP-Adapter与对抗训练模型结合以克服现有防御措施的局限性。我们的代码可在 https://github.com/fhdnskfbeuv/attackIPA 获取。
发布时间: 4/9/2025
查看原文
作者: Shiao Wang, Xiao Wang, Bo Jiang, Lin Zhu, Guoqi Li, Yaowei Wang, Yonghong Tian, Jin Tang
arXiv:2504.05830v1 Announce Type: cross 摘要:人体活动识别(HAR)主要依赖传统的RGB摄像头来实现高性能的活动识别。然而,在现实世界场景中,如光照不足和快速移动等因素不可避免地会降低RGB摄像头的性能。为了解决这些挑战,生物启发的事件摄像头提供了一种克服传统RGB摄像头限制的前景解决方案。在这项工作中,我们通过结合RGB摄像头和事件摄像头重新思考人体活动识别。第一个贡献是我们提出了一个大规模多模式RGB-事件人体活动识别基准数据集,称为HARDVS 2.0,该数据集弥补了数据集的差距。它包含300种日常生活中的实际动作类别,总共有107,646对视频,涵盖了各种具有挑战性的场景。受物理信息的热传导模型启发,我们提出了一种新的多模式热传导操作框架,用于有效的活动识别,称为MMHCO-HAR。具体来说,给定RGB帧和事件流,我们首先使用茎网络提取特征嵌入。然后设计多模式热传导块来融合双特征,其中的关键模块是多模式热传导操作层。我们通过多模式DCT-IDCT层将RGB和事件嵌入进行整合,并通过FVEs适当地将热导率系数纳入该模块。之后,我们基于策略路由策略提出了一种基于自适应融合模块,以实现高性能分类。全面的实验表明,我们的方法始终表现出色,验证了其有效性和鲁棒性。相关源代码和基准数据集将在https://github.com/Event-AHU/HARDVS/tree/HARDVSv2上发布。
发布时间: 4/9/2025
查看原文
作者: Jiahao Chen, Yu Pan, Yi Du, Chunkai Wu, Lin Wang
arXiv:2504.05815v1 通知类型: 交叉 摘要: 近年来,扩散模型因其能够通过迭代采样噪声生成高质量图像,而获得了显著的关注,成为最成功的图像生成模型之一。然而,最近的研究表明,扩散模型容易受到后门攻击的影响,攻击者可以向包含触发器的输入数据中输入,以激活后门并生成其期望的输出。当前的后门攻击方法主要集中在目标噪声到图像和文本到图像任务上,对于图像到图像任务中的后门攻击则缺乏相关研究。此外,传统的后门攻击通常依赖于单一且显眼的触发器来生成固定目标图像,这在隐蔽性和灵活性方面存在不足。为了弥补这些不足,我们提出了一种新的后门攻击方法“Parasite”,用于扩散模型中的图像到图像任务,不仅首次利用隐写术来隐藏触发器,还允许攻击者将目标内容嵌入为后门触发器,以便实现更灵活的攻击。“Parasite”作为一种新的攻击方法,可以有效绕过现有的检测框架执行后门攻击。在我们的实验中,“Parasite”针对主流防御框架达到了100%的后门检测率。此外,在消融研究中,我们讨论了不同隐藏系数对攻击结果的影响。您可以在以下链接找到我们的代码: https://anonymous.4open.science/r/Parasite-1715/。
发布时间: 4/9/2025
查看原文