arXiv 论文列表

作者: Yuxuan Zheng, Yihe Zhou, Feiyang Xu, Mingli Song, Shunyu Liu

arXiv:2505.06706v1 通知类型: 新摘要: 大规模多智能体强化学习(MARL)往往受到维数灾的困扰，因为代理交互的指数增长显著增加了计算复杂度并阻碍了学习效率。为缓解这一问题，现有的依赖于均场(MF)方法通过近似相邻代理为单一均场代理来简化交互场景，从而将整体复杂度降低到成对交互层面。然而，这些MF方法不可避免地无法考虑个体差异，导致均场学习过程中迭代更新不准确引发的聚集噪声。在本文中，我们提出了一种双层均场(BMF)方法，用于在大规模MARL中捕捉代理多样性并通过双层交互来减轻聚集噪声。具体来说，BMF引入了一个动态分组分配模块，该模块利用变分自编码器(VAE)学习代理的表示，使代理能够在时间上动态分组。此外，我们提出了一个双层交互模块来建模组间和组内交互，以实现有效的邻近聚合。在各种任务上的实验表明，所提出的BMF方法在性能上优于现有最先进的方法。我们的代码将公开发布。

发布时间: 5/13/2025

查看原文

基于数据的人类驾驶员换道决策建模综述

作者: Linxuan Huang, Dong-Fan Xie, Li Li, Zhengbing He

arXiv:2505.06680v1 公告类型: 新摘要: 变道（LC）行为是一种关键但复杂的驾驶操作，显著影响驾驶安全和交通动态。传统的分析变道决策（LCD）模型虽然在特定环境下有效，但经常简化行为异质性和复杂交互，限制了它们捕捉实际变道决策的能力。基于数据的方法通过利用丰富的实证数据和机器学习来解码隐含的决策模式，使得在动态环境中实现适应性变道决策建模成为可能。鉴于人工智能的快速发展以及面向联网车辆和自动驾驶车辆的数据驱动模型的需求，本文提供了一篇全面的数据驱动LCD模型综述，特别聚焦于人类驾驶员的变道决策。该综述系统地回顾了建模框架，涵盖数据来源和预处理、模型输入和输出、目标、结构以及验证方法。此外，该综述还讨论了数据驱动LCD模型面临的机遇与挑战，包括驾驶安全、不确定性，以及技术框架的整合与改进。

发布时间: 5/13/2025

查看原文

探索多模态基础人工智能和专家在环对于土著河流野生鲑鱼渔业可持续管理的研究

作者: Chi Xu, Yili Jin, Sami Ma, Rongsheng Qian, Hao Fang, Jiangchuan Liu, Xue Liu, Edith C. H. Ngai, William I. Atlas, Katrina M. Connors, Mark A. Spoljaric

arXiv:2505.06637v1 声明类型: 新摘要: 野生鲑鱼对于北太平洋沿岸的生态、经济和文化可持续发展至关重要。然而，气候变化、栖息地丧失以及缺乏基本基础设施支持的偏远生态系统中的数据限制，给有效的渔业管理带来了重大挑战。本项目旨在探索多模态基础人工智能与专家在环框架的集成，以增强对太平洋西北地区土著河流中野生鲑鱼的监测，并促进可持续的渔业管理。通过利用视频和声纳监测技术，我们开发了基于人工智能的自动物种识别、计数和长度测量工具，减少了人工努力，加快了结果交付，并提高了决策的准确性。专家验证和主动学习框架确保了生态相关性，同时减少了注释负担。为了应对独特的技术和社会挑战，我们聚集了一支跨学科的高校研究者、渔业生物学家、土著管理者、政府部门和保护组织组成的团队。通过这些合作，我们的研究促进了伦理的人工智能共同开发、开放数据共享以及文化导向的渔业管理。

发布时间: 5/13/2025

查看原文

TAROT：朝着理论依据下的本质域不变鲁棒性发展

作者: Dongyoon Yang, Jihu Lee, Yongdai Kim

arXiv:2505.06580v1 宣告类型: 新增摘要: 抗敌对攻击的鲁棒领域适应是一项关键的研究领域，旨在开发能够在多种具有挑战性的领域中保持一致性能的模型。本文中，我们利用一种新的发散度度量，该度量专门设计用于鲁棒领域适应，推导出目标领域上鲁棒风险的新泛化界。在此基础上，我们提出了一种新的算法TAROT，该算法旨在增强领域适应能力和鲁棒性。通过广泛的实验，TAROT 不仅在准确性和鲁棒性方面超越了现有最先进的方法，还通过有效学习领域不变特征显著提升了领域泛化能力和可扩展性。特别是，TAROT 在具有挑战性的DomainNet数据集上表现优异，展示了其能够在不同领域（包括未见过的领域）中学习到具有良好泛化能力的领域不变表示的能力。这些结果突显了我们在实际领域适应场景中的更广泛适用性。

发布时间: 5/13/2025

查看原文

在线反馈高效的主动目标发现在部分可观测环境中

作者: Anindya Sarkar, Binglin Ji, Yevgeniy Vorobeychik

arXiv:2505.06535v1 宣告类型: 新摘要: 在数据获取成本高昂的各类科学和工程技术领域，如医学成像、环境监测或遥感中，通过对未观测区域进行战略性采样，并借助先前的观测结果来进行指导，是利用有限的采样预算最大化目标发现的关键。在本工作中，我们提出了一种名为基于扩散引导的主动目标发现（DiffATD）的新方法，该方法利用扩散动力学来进行主动目标发现。DiffATD 为环境中的每个未观测状态维护一个信念分布，并利用该分布动态平衡探索与利用。探索通过采样具有最高预期熵的区域来减少不确定性，而利用则针对具有最高目标发现概率的区域进行目标提取，这些区域由信念分布和一个逐次训练的奖励模型指示，该模型旨在学习目标的特征。DiffATD 能在固定采样预算下高效地在部分可观测环境中进行目标发现，而无需依赖任何先验的监督训练。此外，DiffATD 具有可解释性，不同于现有的黑盒策略，这些黑盒策略需要大量的监督训练。通过在包括医学成像和遥感在内的多个领域进行广泛实验和消融研究，我们展示了 DiffATD 相比基线方法具有显著的优势，并且在部分可观测环境中操作时与监督方法具有竞争力。

发布时间: 5/13/2025

查看原文

部分可观测领域基于点的分布强化学习算法

作者: Larry Preuett III

arXiv:2505.06518v1 通知类型: 新摘要: 在许多实际的规划任务中，代理必须应对环境状态的不确定性以及任何选择的策略结果的变异性。我们首先将这两种不确定性纳入考虑，以朝着部分可观测环境中的更安全的算法迈出一步。具体而言，我们将完全可观测领域中的分布强化学习(DistRL)扩展到部分可观测马尔可夫决策过程(POMDPs)，使代理能够学习每种条件计划的回报分布。具体来说，我们引入了新的分布贝尔曼算子来处理部分可观测性，并证明其在 supremum p-Wasserstein 茶度下收敛。我们还提出了一种通过ψ向量表示这些回报分布的方法，这种ψ向量推广了经典POMDP求解器中的α向量。在此基础上，我们发展了分布点基价值迭代(DPBVI)，该方法将ψ向量整合到标准的点基备份过程中，从而将DistRL与POMDP规划结合起来。通过追踪回报分布，DPBVI 自然地使代理能够处理那些罕见但影响重大的事件，从而实现风险敏感的控制。我们将提供源代码以促进在部分可观测环境下的稳健决策研究。

发布时间: 5/13/2025

查看原文

从文本到CAD查询：一种具有可扩展大规模模型能力的CAD生成新范式

作者: Haoyang Xie, Feng Ju

arXiv:2505.06507v1 宣告类型: 新发布摘要: 计算机辅助设计（CAD）是现代工程和制造的基础，但创建CAD模型仍然需要专家知识和专用软件。最近大规模语言模型（LLMs）的发展为生成式CAD提供了可能性，在这种模式下，自然语言可以直接转换成参数化的3D模型。然而，现有的大多数方法生成的是任务特定的命令序列，这些序列预训练模型无法直接处理。这些序列必须转换为CAD表示，如CAD向量，才能生产出3D模型，这需要从头开始训练模型，增加了不必要的复杂性。为了解决这个问题，我们提出直接从文本生成CadQuery代码，利用预训练LLMs的优势，生产3D模型而不需要中间表示，使用基于Python的脚本语言。由于LLMs已经在Python生成和空间推理方面表现出色，通过Text-to-CadQuery数据对其进行微调证明非常有效。鉴于这些能力通常会随着规模的增加而提高，我们假设更大的模型在微调后会表现更好。为了实现这一点，我们通过添加170,000个CadQuery注释来增强Text2CAD数据集。我们对六个不同规模的开源LLMs进行了微调，并观察到一致的改进。我们的最佳模型实现了Top-1精确匹配率69.3%，而之前的匹配率为58.8%，同时减少了48.6%的Chamfer Distance。项目页面: https://github.com/Text-to-CadQuery/Text-to-CadQuery。

发布时间: 5/13/2025

查看原文

关于具信体迭代信念修订的 belief 代数研究

作者: Hua Meng, Zhiguo Long, Michael Sioutis, Zhengchun Zhou

arXiv:2505.06505v1 类别: 新发现摘要: 传统的基于逻辑的信任修订研究主要集中在设计规则，以约束修订操作的行为。已经提出了框架来描述迭代修订规则，但这些框架往往过于宽松，导致在相同的信任条件下，存在多个满足这些规则的修订操作。在许多实际应用中，尤其是在安全关键的应用中，明确指定一个修订操作以使代理能够以确定的方式迭代修订其信念是非常重要的。在本文中，我们提出了一种新的迭代信任修订框架，通过使用偏好关系来描述信任信息。从语义上讲，信念和新证据都被表示为信念代数，这为信任修订提供了丰富且表达力强的基础。在传统修订规则的基础上，我们引入了修订与信念代数相关的附加公理，包括对修订结果的上界约束。我们证明，在给定当前的信任状态和新证据的情况下，修订结果是唯一确定的。此外，为了使该框架在实践中更具用途，我们开发了一种特定的算法来执行所提出的修订过程。我们认为，这种方法可能提供了一种更可预测和原则性的信任修订方法，使其适用于实际应用。

发布时间: 5/13/2025

查看原文

SmartPilot: 一个多代理副驾系统，实现适应性和智能制造

作者: Chathurangi Shyalika, Renjith Prasad, Alaa Al Ghazo, Darssan Eswaramoorthi, Harleen Kaur, Sara Shree Muthuselvam, Amit Sheth

arXiv:2505.06492v1 通知类型: 新增摘要：在 Industry 4.0 的动态背景下，实现高效、精确和灵活对优化生产操作至关重要。由于供应链中断导致的异常现象，当前的 AI 模型可以检测这些异常，但缺乏深入洞察这些异常的能力让领域专家感到不确定。此外，由于生产预测不准确以及传统 AI 模型在处理复杂传感器数据方面的局限性，生产操作仍存在效率低下问题。尽管取得了这些进展，现有系统仍然缺乏将这些能力无缝集成的能力，无法创造一个真正统一的解决方案来提升生产和决策能力。我们提出了一种名为 SmartPilot 的神经符号、多智能体 Copilot，专为高级推理和情境决策设计，以解决这些挑战。SmartPilot 处理多模态传感器数据，并可在边缘设备上部署。它侧重于三个核心任务：异常预测、生产预测和领域特定的问题回答。通过弥合 AI 能力与实际工业需求之间的差距，SmartPilot 为各行各业提供智能化决策，并推动制造领域的颠覆性创新。更多演示视频、数据集和补充材料可以在 https://github.com/ChathurangiShyalika/SmartPilot 获取。

发布时间: 5/13/2025

查看原文

KCluster：一种基于LLM的知识组件发现聚类方法

作者: Yumou Wei, Paulo Carvalho, John Stamper

arXiv:2505.06469v1 宣告类型: 新摘要: 教育者使用知识组件（KC）模型来将评估问题映射到知识组件上，从而评估学生知识。然而，对于需要手工分析每个问题的教师而言，设计适用于大型问题库的KC模型仍然是一个无法克服的挑战。教育中越来越多地使用生成式AI，预计只会加剧专家设计的KC模型的这一慢性缺陷，因为课程工程师在设计KC时难以跟上生成问题的速度。在这项工作中，我们提出了KCluster，这是一种基于大型语言模型（LLM）诱导的新相似度度量来识别一致问题 cluster 的新型KC发现算法。我们通过三个数据集展示了LLM可以创建有效的相似性度量，该度量可以用于聚类算法，以在最少的人工努力下从问题中生成KC模型。结合大型语言模型和聚类的优势，KCluster生成了描述性的KC标签，并发现的KC模型预测学生表现的能力优于现有的最佳专家设计模型。展望未来的工作，我们展示了KCluster如何揭示难度较大的KC的洞察，并提出了改进教学的建议。

发布时间: 5/13/2025

查看原文