arXiv 论文列表

基于自主车辆的 underwater acoustic tracking 的可扩展多agent强化学习方法

作者: Matteo Gallici, Ivan Masmitja, Mario Mart\'in

arXiv:2505.08222v1 Announce Type: cross 摘要：自主车辆（AV）为诸如水下跟踪等科学任务提供了成本有效的解决方案。最近，强化学习（RL）已经成为在复杂海洋环境中控制AV的强大方法。然而，将这些技术扩展到车队——这对于多目标跟踪或具有快速、不可预测运动的目标至关重要——带来了重大的计算挑战。多代理强化学习（MARL）历来效率低下，在使用Gazebo的LRAUV等高保真实验模拟器提供100倍实时速度的单机器人模拟时，它们对多车辆场景并未提供显著的速度提升，使MARL训练难以实现。为应对这些局限性，我们提出了一种迭代蒸馏方法，该方法将高保真模拟移植到简化且GPU加速的环境中，同时保留高级动力学。该方法通过并行化实现了对Gazebo高达3万倍的速度提升，从而通过端到端的GPU加速实现高效的训练。此外，我们引入了一种新颖的基于Transformer的架构（TransfMAPPO），该模型学会了对代理数量和目标数量具有不变性的多代理策略，显著提高了样本效率。在仅在GPU上进行全面的逐步学习后，我们在Gazebo上进行了广泛的评估，结果表明，在多快移动目标的存在下，我们的方法能够维持长达长时间的跟踪误差低于5米。这项工作填补了大规模MARL训练与高保真部署之间的空白，提供了在实际海洋任务中实现自主车队控制的可扩展框架。

发布时间: 5/14/2025

查看原文

预测头部和提问头部：用于LLM输出幻觉检测的预训练不确定性量化头部

作者: Artem Shelmanov, Ekaterina Fadeeva, Akim Tsvigun, Ivan Tsvigun, Zhuohan Xie, Igor Kiselev, Nico Daheim, Caiqi Zhang, Artem Vazhentsev, Mrinmaya Sachan, Preslav Nakov, Timothy Baldwin

arXiv:2505.08200v1 类型: cross 摘要: 大型语言模型（LLMs）倾向于产生幻觉，即偶尔生成虚假或虚构的信息。这提出了一个主要挑战，因为幻觉往往显得非常可信，而用户通常缺乏检测它们的工具。不确定性量化（UQ）提供了一种评估模型输出可靠性的框架，有助于识别潜在的幻觉。在本文中，我们引入了预训练的不确定性量化头部：监督辅助模块，能够显著增强LLMs捕捉不确定性的能力，相较于未监督的不确定性量化方法。这些头部表现出色的原因在于其设计中的强大Transformer架构以及从LLM注意力图中获得的有用特征。实验评估表明，这些头部具有高度鲁棒性，并在领域内和领域外提示下的断言级幻觉检测中达到了最先进的性能。此外，这些模块对它们未明确训练的语言具有很强的泛化能力。我们为流行的LLM系列（包括Mistral、Llama和Gemma 2）预先训练了一组不确定性量化头部。我们公开发布了代码和预训练的头部。

发布时间: 5/14/2025

查看原文

Aitomia：您的基于人工智能的原子级和量子化学模拟智能助理

作者: Jinming Hu, Hassan Nawaz, Yuting Rui, Lijie Chi, Arif Ullah, Pavlo O. Dral

arXiv:2505.08195v1 Announce Type: cross 摘要：我们开发了Aitomia——一个由AI驱动的平台，旨在辅助进行AI驱动的原子尺度和量子化学(QC)模拟。这个智能助理平台配备了聊天机器人和AI代理，以帮助专家指导非专家设置和运行原子尺度模拟、监控计算状态、分析模拟结果，并以文本和图形形式总结结果给用户。我们通过利用微调的开源大型语言模型（LLMs）、基于规则的代理以及检索增强生成（RAG）系统来实现这些目标。Aitomia利用了我们MLatom生态系统的优势，以增强计算化学领域的人工智能应用。该智能助理将被整合到Aitomistic Hub和XACS在线计算服务中，部分功能已经在http://mlatom.com/aitomia上公开提供。Aitomia有望降低进行原子尺度模拟的门槛，加速相关领域的研究和开发。

发布时间: 5/14/2025

查看原文

DSADF：快速与缓慢的决策思考

作者: Alex Zhihao Dou, Dongfei Cui, Jun Yan, Weida Wang, Benteng Chen, Haoming Wang, Zeke Xie, Shufei Zhang

arXiv:2505.08189v1 类型: cross 摘要：尽管强化学习（RL）代理在明确环境中非常有效，但由于它们依赖于试错互动，它们往往难以将其学到的政策泛化到动态环境中。最近的工作探讨了通过策略优化指导或先验知识应用大规模语言模型（LLMs）或视觉语言模型（VLMs）来提高RL代理的泛化能力。然而，这些方法通常在RL代理和基础模型之间缺乏无缝协调，导致在不熟悉环境中做出不合理决策，并且存在效率瓶颈。充分利用基础模型的推理能力、增强RL代理的快速响应能力，并加强两者之间的交互以形成双系统仍然是一个有待解决的科学问题。为了应对这一问题，我们借鉴了Kahneman的快速思考系统（System 1）和慢思考系统（System 2）的理论，表明平衡直觉和深入推理可以在复杂世界中实现敏捷的决策。在本研究中，我们提出了一种双系统自适应决策框架（DSADF），结合了两个互补的模块：System 1，包括一个RL代理和一个用于快速和直观决策的记忆空间，以及由VLM驱动的System 2，进行深入和分析性的推理。DSADF通过结合两个系统的优势，实现了高效的自适应决策。在视频游戏环境Crafter和Housekeep中的实证研究显示了我们所提方法的有效性，展示了在新任务和已知任务方面决策能力的显著提升。

发布时间: 5/14/2025

查看原文

意识可行性的悲观估计：迈向离线RL中的长视角安全性

作者: Zhikun Tao, Gang Xiong, He Fang, Zhen Shen, Yunjun Han, Qing-Shan Jia

arXiv:2505.08179v1 声明类型: cross 摘要: 无监督强化学习(OSRL)从预先收集的数据集中推导出满足约束的策略，为在机器人等关键安全领域部署RL提供了有希望的道路。然而，现有方法大多仅强调短期安全性，忽视了长期考虑。因此，它们可能会违反安全约束，在在线部署过程中无法确保持续的安全保护。此外，所学习的策略经常难以处理未出现在离线数据集中或处于离群值(out-of-distribution, OOD)状态和动作，并且样本效率有限。为了解决这些挑战，我们提出了一种新的框架：基于CVAE悲观估计的可实现性感知的无监督安全强化学习(FASP)。首先，我们采用哈密尔顿-雅可比(H-J)可达性分析生成可靠的安全部署标签，作为训练条件变分自编码器(CVAE)和安全分类器的监督信号。这种方法不仅保证了高的采样效率，还提供了严格的长期安全保证。此外，我们利用悲观估计方法估计奖励和成本的Q值，以减轻由OOD动作引起的外推误差，并对不安全的动作进行惩罚，使智能体能够主动避免高风险行为。此外，我们从理论上证明了这种悲观估计的有效性。在DSRL基准实验中，FASP算法在多个实验任务中表现出竞争力，尤其是在安全性方面超越了最先进的算法。

发布时间: 5/14/2025

查看原文

快速文本到音频生成与对抗后训练

作者: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons

arXiv:2505.08175v1 adversarial 加速类型: 交叉摘要：尽管文本转音频系统在性能上越来越高，但在推断时间上仍然很慢，因此使其延迟在许多创意应用中变得不实用。我们提出了Adversarial Relativistic-Contrastive (ARC) 后训练，这是第一个基于对抗方法而不是蒸馏的扩散/流动模型的后训练加速算法。虽然以往的对抗后训练方法难以与昂贵的蒸馏方法相比，ARC 后训练是一种简单的程序：（1）将最近的相对对抗形式扩展到扩散/流动后训练，并且（2）结合一种新颖的对比鉴别器目标以鼓励更好的提示一致性。我们将ARC 后训练与Stable Audio Open 的一系列优化相结合，构建了一个能够在H100 上生成约12秒44.1kHz 立体声音频的速度约为75毫秒，以及在移动边缘设备上生成约7秒的速度，据我们所知，这是迄今为止最快的文本转音频模型。

发布时间: 5/14/2025

查看原文

利用文本语义进行带有文本属性图的Few和ZeroShot节点分类

作者: Yuxiang Wang, Xiao Yan, Shiyu Jin, Quanqing Xu, Chuang Hu, Yuanyuan Zhu, Bo Du, Jia Wu, Jiawei Jiang

arXiv:2505.08168v1 宣告类型: cross 摘要: 文本标注图(TAG)为每个图节点提供文本说明,并在学术界和社会网络等领域中,少量样本节点分类和零样本节点分类有许多应用。现有的工作利用各种基于图的增强技术来训练节点和文本嵌入,而基于文本的增强技术则几乎没有被探索。在本文中,我们提出文本语义增强(TSA)来通过引入更多的文本语义监督信号来提高准确性。具体来说,我们设计了两种增强技术,即正语义匹配和负语义对比,为每个图节点或文本描述提供更多的参考文本。正语义匹配检索具有相似嵌入的文本来匹配一个图节点。负语义对比添加一个负提示以构建与原始节点和文本具有相反语义的文本描述,该描述与原始节点和文本进行对比。我们在5个数据集上评估了TSA,并与13个最先进的基线进行了比较。结果显示,TSA在所有基线下始终保持优异性能,相对于表现最好的基线,其准确性提高通常超过5%。

发布时间: 5/14/2025

查看原文

融合双向思考链和奖励机制的方法：提升大型语言模型在解答中国无形文化遗产问题能力

作者: Ruilin Liu, Zhixiao Zhao, Jieqiong Li, Chang Liu, Dongbo Wang

arXiv:2505.08167v1 交叉类型：cross 摘要：大型语言模型（LLMs）的快速进展为特定领域的大语言模型的发展提供了重要支持和机会。然而，使用非物质文化遗产（ICH）数据对这些大型模型进行微调不可避免地会面临诸如偏见、错误的知识继承和灾难性遗忘等问题。为了解决这些问题，我们提出了一种新颖的训练方法，该方法结合了双向链式思维和奖励机制。该方法建立在ICH-Qwen之上，这是一个专门为非物质文化遗产领域设计的大语言模型。所提出的方法不仅使模型能够进行前向推理，还通过利用逆向查询和逆向推理来激活模型的潜在知识，从而提高生成答案的准确性。此外，在训练过程中引入了奖励机制以优化决策过程。该机制通过结构和内容评估的不同加权方案，提高了模型输出的质量。我们对ICH-Qwen进行了比较实验，结果显示，在问题回答任务上，我们的方法在准确性和Bleu-4、Rouge-L分数方面优于零样本、逐步推理、知识蒸馏和问题扩展方法。此外，论文通过消融实验强调了结合双向链式思维和奖励机制的有效性。此外，还进行了可移植性实验，结果显示所提出的方法在金融、Wikidata和StrategyQA等不同领域的特定数据集和高级模型上都取得了改进。这表明该方法可以适应多个领域，并为未来跨不同领域的模型训练提供了有价值的途径。

发布时间: 5/14/2025

查看原文

深度时间序列预测模型的特征匹配在线同调预测

作者: Xiannan Huang, Shuhan Qiu

arXiv:2505.08158v1 交叉公告类型摘要：时间序列预测对于许多应用至关重要，基于深度学习的点预测模型已经展示了强大的性能。然而，在实际场景中，也需要通过在线置信区间量化预测不确定性。现有的基于这些深度点预测模型构建的置信区间建模方法存在关键限制：它们要么需要昂贵的重新培训，要么未能充分利用深度模型的表示优势，要么缺乏理论保证。为了解决这些问题，我们提出了一种轻量级的同态预测方法，该方法不需重新培训即可提供有效的覆盖范围和更短的区间长度。该方法通过利用预训练点预测模型提取的特征来拟合残差预测器并构建置信区间，并进一步通过自适应覆盖控制机制加以增强。理论上，我们证明了我们的方法实现了渐近覆盖收敛，且误差界依赖于所用点预测模型的特征质量。在12个数据集上的实验证明，我们的方法能在保持所需覆盖率为前提下提供更紧的置信区间。代码、模型和数据集可在 \url{https://github.com/xiannanhuang/FFDCI} 获取。

发布时间: 5/14/2025

查看原文

基于模型增强的双曲对比学习在知识aware推荐中的应用

作者: Shengyin Sun, Chen Ma

arXiv:2505.08157v1 标题类型: cross 摘要：得益于图神经网络（GNNs）和对比学习的有效性，基于GNN的对比学习已成为知识感知推荐的主流方法。然而，现有的大多数基于对比学习的方法在其难以有效捕捉用户-项目二分图和知识图中的潜在层次结构方面存在困难。此外，它们通常通过扰动图结构来生成对比学习的正样本，这可能会导致用户偏好学习的偏移。为克服这些局限性，我们提出了一种适用于知识感知推荐的双曲对比学习方法，并通过模型增强来辅助。为了捕捉内在的层次结构图结构，我们首先设计了一种新颖的洛伦兹知识聚合机制，这使得用户和项目的表示更加有效。然后，我们提出了三种模型层面的增强技术来辅助双曲对比学习。与经典的结构层面增强（例如，边删除）不同，提出的模型增强技术可以避免增强正样本对之间的偏好偏移。最后，我们进行了广泛的实验，以证明提出的模型相对于现有基线方法的优势（最大改进为11.03%）。

发布时间: 5/14/2025

查看原文