arXiv 论文列表

作者: Yinghan Sun, Hongxi Wang, Hua Chen, Wei Zhang

arXiv:2505.08295v1 交叉领域类型：跨领域摘要：深度强化学习（DRL）已成为解决序列决策问题的强大框架，已在包括游戏AI、自主驾驶、生物医学和大型语言模型等多种应用中取得了显著的成功。然而，算法的多样性以及理论基础的复杂性常常对希望进入该领域的初学者构成重大挑战。本教程旨在为DRL提供简洁、直观和实用的介绍，特别强调了广泛使用且效果显著的Proximal Policy Optimization（PPO）算法。为便于学习，我们将所有算法组织在通用策略迭代（GPI）框架下，为读者提供统一和系统的视角。我们强调直观的解释、示例和实用的工程技巧，而不是冗长的理论证明。本工作作为高效且易于访问的指南，帮助读者快速从基础概念过渡到高级DRL算法的实现。

发布时间: 5/14/2025

查看原文

M3G：面向音频驱动全身人体运动合成的多粒度手势生成器

作者: Zhizhuo Yin, Yuk Hang Tsui, Pan Hui

arXiv:2505.08293v1 类型: cross 摘要: 从音频生成涵盖面部、身体、手部和全局运动的全身人类手势是一项有价值但具有挑战性的任务，尤其是在虚拟化身创建中。现有的系统专注于从输入音频中逐帧分词人体手势，并预测每帧的手势标记。然而，观察到一个现象，即定义为粒度的完整表达性人体手势所需的帧数因不同的手势模式而异。现有的系统由于其手势标记的固定粒度而无法建模这些手势模式。为了解决这个问题，我们提出了一种名为Multi-Granular Gesture Generator (M3G) 的新颖框架，用于基于音频的整体手势生成。在M3G中，我们提出了一种新颖的Multi-Granular VQ-VAE (MGVQ-VAE)来分词运动模式并从不同的时间粒度重构运动序列。随后，我们提出了一个多粒度标记预测器，从音频中提取多粒度信息并预测相应的运动标记。然后，M3G使用MGVQ-VAE从预测的标记重构人体手势。客观和主观实验均表明，我们提出的M3G框架在生成自然且表达性强的全身人类手势方面优于现有最先进的方法。

发布时间: 5/14/2025

查看原文

开放MPNN的眼眸：视觉增强MPNN的链接预测

作者: Yanbin Wei, Xuehao Wang, Zhan Zhuang, Yang Chen, Shuhao Chen, Yulong Zhang, Yu Zhang, James Kwok

arXiv:2505.08266v1 Announce Type: cross 摘要：消息传递图神经网络（MPNNs）和结构性特征（SFs）是链接预测任务的基础。然而，在MPNN社区中，作为一种常见且直观的理解方式，视觉感知的潜力被忽视了。首次在MPNN框架中引入了视觉结构意识，提出了一个有效的框架称为Graph Vision Network (GVN)，以及一个更高效的变体（E-GVN）。广泛的经验结果表明，通过提出的框架，GVN在七个链接预测数据集上的一致受益于视觉增强，包括具有挑战性的大规模图。这些改进与现有的最先进（SOTA）方法兼容，并且GVNs实现了新的SOTA结果，从而强调了一个有前景的新方向用于链接预测。

发布时间: 5/14/2025

查看原文

基于因果机制识别视角的LLM增强GNNs分析

作者: Hang Gao, Wenxuan Huang, Fengge Wu, Junsuo Zhao, Changwen Zheng, Huaping Liu

arXiv:2505.08265v1 交叉类型：摘要：使用大型语言模型（LLMs）作为特征增强器以优化节点表示，然后将这些表示作为图神经网络（GNNs）的输入，在图表示学习中展现出了显著的潜力。然而，这种做法的基本特性仍然未被充分探索。为解决这一问题，我们提出基于交换干预方法进行更深入的分析。首先，我们构建了一个具有可控因果关系的合成图数据集，这使其能够精确操纵语义关系和进行因果建模，从而为分析提供数据。借助这个数据集，我们进行了交换干预，以检查LLM增强器和GNNs的深层特性，揭示它们的潜在逻辑和内部机制。基于分析结果，我们设计了一个即插即用优化模块，以提高LLM增强器与GNNs之间的信息传递。跨多个数据集和模型的实验验证了所提出模块的有效性。

发布时间: 5/14/2025

查看原文

自动课程学习在驾驶场景中：向着稳健且高效的强化学习

作者: Ahmed Abouelazm, Tim Weinstein, Tim Joseph, Philip Sch\"orner, J. Marius Z\"ollner

arXiv:2505.08264v1 Announce Type: cross 摘要：本文解决了使用强化学习（RL）训练端到端自动驾驶代理所面临的挑战。RL代理通常在固定的场景集和周围道路使用者的标准行为的模拟中进行训练，这限制了它们的泛化能力和实际部署。虽然领域随机化提供了一种潜在的解决方案，通过随机采样驾驶场景，但通常会导致训练效率低下和次优策略，因为训练场景之间的方差很高。为了解决这些限制，我们提出了一种自动课程学习框架，该框架可以根据代理能力的演变动态生成具有自适应复杂度的驾驶场景。与引入专家偏见且缺乏扩展性的手动设计课程不同，我们的框架结合了一个“教师”，该“教师”可以根据学习潜力自动生成和变异驾驶场景——这是一种基于代理当前策略的代理中心度量——从而消除了需要专家设计的需求。该框架通过排除代理已经掌握或发现太棘手的场景来提高训练效率。我们在一个代理从相机图像学习驾驶策略的强化学习环境中评估了我们的框架。与包括固定场景训练和领域随机化在内的基线方法相比，我们的方法在泛化性上具有改进，低密度交通中成功率提高了9%，高密度交通中提高了21%，并且以更少的训练步骤实现了更快的收敛。我们的研究结果突显了自动课程学习（ACL）在提高基于RL的自动驾驶代理的鲁棒性和效率方面的潜力。

发布时间: 5/14/2025

查看原文

增强基于缓存的生成（CAG）与自适应上下文压缩相结合的可扩展知识集成

作者: Rishabh Agrawal, Himanshu Kumar

arXiv:2505.08261v1 交叉公告类型：cross 摘要：大型语言模型（LLMs）的快速进步为知识密集型任务的新方法铺平了道路。在这之中，缓存增强生成（CAG）作为一种 Retrieval-Augmented Generation（RAG）的有前途的替代方案脱颖而出。CAG 通过预先加载知识到模型的上下文中来最小化检索延迟并简化系统设计。然而，如何有效扩展 CAG 以适应庞大且动态的知识库仍然存在挑战。本文介绍了自适应上下文压缩（ACC），这是一种创新技术，旨在动态压缩和管理上下文输入，从而使现代 LLM 的扩展内存能力得到有效利用。为了进一步解决独立使用 CAG 的局限性，我们提出了一种混合 CAG-RAG 框架，该框架在需要额外信息的情景中，通过选择性检索来增强预先加载的上下文。通过在多种数据集上的全面评估，这些提出的方法显示出增强扩展性、优化效率和提高多跳推理性能的能力，为解决实际知识集成挑战提供了实用解决方案。

发布时间: 5/14/2025

查看原文

大型语言模型心理测量学：评价、验证和增强的系统性综述

作者: Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song

arXiv:2505.08245v1 声明类型: cross 摘要：大语言模型（LLMs）的迅猛发展已经超越了传统的评估方法。这提出了新的挑战，如测量类似人类的心理构念、超越静态和特定任务的基准以及建立以人类为中心的评估方法。这些挑战与心理学测量学紧密相关，心理学测量学是量化人类心理学的非物质方面，如性格、价值观和智力的科学。本文介绍了新兴的跨学科领域——LLM心理学测量学，该领域利用心理学测量工具、理论和原则来评估、理解和提升LLM。我们系统地探讨了心理学测量学在塑造基准原则、拓宽评估范围、改进方法论、验证结果以及推进LLM能力方面的作用。本文整合了多元视角，为跨学科研究人员提供了一个结构化框架，使他们能够更全面地理解这一新兴领域。最终，我们旨在为与人类水平人工智能相一致的未来评估范式提供可操作的见解，并促进以人类为中心的人工智能系统的进步以服务于社会利益。有关LLM心理学测量资源的精选库可在https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics获得。

发布时间: 5/14/2025

查看原文

使用语义信息部分再生去除水印

作者: Krti Tallam, John Kevin Cava, Caleb Geniesse, N. Benjamin Erichson, Michael W. Mahoney

arXiv:2505.08234v1 声称类型：交叉摘要：随着人工智能生成的图像变得无处不在，隐形水印已成为保护版权和来源的主要防线。最新的水印方案嵌入了语义信号——内容感知的模式，旨在在常见的图像处理下保持其生存能力，然而它们在面对适应性对手时的真实稳健性仍被广泛忽视。我们揭示了一个此前未被报道的漏洞，并引入了SemanticRegen，这是一种三阶段、无标签攻击，可以擦除最先进的语义和隐形水印，同时不改变图像的显见含义。我们的管道包括：(i) 使用视觉语言模型获取细粒度的描述，(ii) 通过零样本分割提取前景掩码，以及(iii) 通过LLM指导的扩散模型仅对背景进行填充值，从而保留关键对象和风格线索。在对四个水印系统（TreeRing、StegaStamp、StableSig和DWT/DCT）的1,000个提示进行评估后，SemanticRegen是唯一一种击败语义TreeRing水印的方法（p = 0.10 > 0.05），并且对其他方案的比特准确性低于0.75，同时保持了较高的感知质量（遮罩SSIM = 0.94 ± 0.01）。我们进一步引入了遮罩结构均方根误差（mSSIM）来量化前景区域内的保真度，结果显示我们的攻击比之前的基于扩散的攻击方法实现了高达12%更高的mSSIM。这些结果突显了当前水印防护与适应性强、具有语义意识的对手能力之间的紧迫差距，强调了需要针对内容保持再生攻击具有抗性的水印算法的必要性。

发布时间: 5/14/2025

查看原文

在不良天气条件下使用Instruct Pix2Pix进行自主车辆的目标检测

作者: Unai Gurbindo, Axel Brando, Jaume Abella, Caroline K\"onig

arXiv:2505.08228v1 研究类型: cross 摘要: 在恶劣天气条件下增强对象检测系统的稳健性对于自主驾驶技术的发展至关重要。本研究提出了一种新颖的方法，利用扩散模型 Instruct Pix2Pix，开发出能够生成具有基于天气增强的数据集的提示方法，旨在减轻恶劣天气对最先进的对象检测模型（包括Faster R-CNN和YOLOv10）感知能力的影响。实验在CARLA模拟器中进行，首先提供了对建议数据增强方法的初步评估，然后在实际图像数据集BDD100K和ACDC中进行，证明了该方法在实际环境中的有效性。本研究的主要贡献有两个方面：(1) 识别和量化对象检测模型在恶劣天气条件下的性能差距，以及(2) 证明了定制的数据增强策略可以显著增强这些模型的鲁棒性。本研究为在苛刻环境场景中提高感知系统的可靠性奠定了坚实的基础，并为未来自主驾驶技术的进步提供了途径。

发布时间: 5/14/2025

查看原文

基于强化学习的四旋翼无人机容错控制与在线变压器适应算法

作者: Dohyun Kim, Jayden Dongwoo Lee, Hyochoong Bang, Jungho Bae

arXiv:2505.08223v1 通告类型: 交叉摘要: 多旋翼无人机在多样化领域机器人应用中扮演着重要角色，但仍然容易受到执行器故障的影响，导致快速失稳并损害任务可靠性。尽管已经广泛探索了使用强化学习(Reinforcement Learning, RL)的容错控制(Fault-Tolerant Control, FTC)策略，但大多数先前方法需要多旋翼模型的先验知识，或者难以适应新的配置。为了解决这些限制，我们提出了一种新的结合变压器在线适应模块的混合RL基FTC框架。我们的框架利用变压器架构实时推断潜在表示，从而能够在无需重新训练的情况下适应未见过的系统模型。我们在PyBullet仿真环境下评估了我们的方法，通过效果丧失的执行器故障，实现95%的成功率和位置均方根误差（RMSE）为0.129 m，优于现有适应方法的成功率86%和RMSE为0.153 m。进一步在不同配置的四旋翼无人机上的评估证实了我们框架在未训练动力学下的鲁棒性。这些结果表明，我们的框架有可能提高多旋翼无人机的适应性和可靠性，在动态和不确定环境中实现高效的故障管理。网站信息可在http://00dhkim.me/paper/rl-ftc获取。

发布时间: 5/14/2025

查看原文