arXiv:2504.11243v1 安全要求类型:新
摘要:我们研究了一种利用大规模语言模型(LLM)结合基于代理的检索增强生成方法来自动推导自驾车应用场景下的安全要求。现有的利用预训练LLM辅助安全分析的方法通常缺乏特定领域的知识。现有的检索增强生成(RAG)方法虽然解决了这一问题,但在处理复杂查询时表现不佳,获取最相关信息也变得越来越困难。对于安全相关的应用尤为如此。在本文中,我们提出了基于代理的RAG方法来推导安全要求,并表明检索到的信息对查询更为相关。我们在此方法中使用了汽车标准文档池以及Apollo案例研究,作为自动驾驶感知系统的一个代表实例。我们的解决方案在来自Apollo数据的安全要求问题和答案数据集上进行了测试。通过评估一组选定的RAG指标,我们提出了与默认RAG方法相比,基于代理的方法的优势并进行了讨论。
arXiv:2504.11239v1 宣布类型: 新
摘要: 推理是大型语言模型(LLMs)的基本能力。由于LLMs的快速进步,当前的基准存在两个主要问题:i) 这些基准可以在短时间内被破解(不到一年),ii) 这些基准可能被轻易破解。为了解决这些问题,我们提出了ever-scalingness,以构建无法破解、无法被破解、自动验证且通用的基准。本文介绍了Nondeterministic Polynomial-time Problem Challenge(NPPC),这是一种针对LLMs的ever-scaling推理基准。具体而言,NPPC有三个主要模块:i) npgym,提供一个统一接口,涵盖25个著名的NP完全问题,可以生成任意数量的具有不同复杂程度的实例,ii) npsolver:提供一个统一接口,通过API和本地部署分别评估线上和离线模型的问题实例,iii) npeval:提供全面且易于使用的工具,分析LLMs在不同问题、不同标记数量、Eureka时刻、推理错误和解决方案错误上的性能。广泛的实验表明:i) NPPC能够成功将先进LLMs的表现降低到10%以下,证明了NPPC是无法破解的,ii) DeepSeek-R1、Claude-3.7-Sonnet 和 o1/o3-mini 是最强大的LLMs,其中DeepSeek-R1在大多数考虑的NP完全问题上优于Claude-3.7-Sonnet和o1/o3-mini,iii) 对于先进LLMs,例如Claude-3.7-Sonnet和DeepSeek-R1,在问题实例变得越来越难的情况下,标记数量和Eureka时刻先增加后减少。我们认为NPPC是第一个ever-scaling推理基准,作为通往通用人工智能(AGI)的LLMs的无法破解和无法被破解的测试平台。
arXiv:2504.11200v1 公告类型: 新
摘要: 本章探讨了人类与系统之间相互理解的概念,提出神经符号人工智能(NeSy AI)方法可以通过结合显式符号知识表征和数据驱动的学习模型,显著增强这种相互理解。我们首先介绍了三个关键维度来表征相互理解:共享知识、交换知识和治理知识。共享知识涉及对齐不同代理的概念模型,以便为感兴趣的领域建立共享理解。交换知识涉及到确保代理之间有效准确的通信。治理知识涉及建立规则和流程来调节代理之间的互动。然后,我们介绍了几种不同的使用案例场景,展示了NeSy AI和知识图谱在促进人类、人工和机器代理之间有意义的交流方面的作用。这些场景突显了将自上而下的符号推理与自下而上的神经学习相结合的潜力和挑战,并引导了在共享、交换和治理知识维度上当前解决方案的覆盖面讨论。同时,这项分析有助于识别相互理解中的空白和未充分发展的方面,以便在未来的研究中解决这些问题。
arXiv:2504.11190v1 宣言类型: 新
摘要: 近期大型语言模型在各种任务上的进展展示了它们的能力。然而,自动从自然语言中提取隐含知识仍然是一个显著的挑战,因为机器缺乏对物理世界的主动经验。在这种情况下,语义知识图可以作为概念空间,指导自动化文本生成推理过程,从而实现更高效和可解释的结果。在本文中,我们应用了一种逻辑增强生成(LAG)框架,该框架通过语义知识图的显式表示来利用文本,并将其与提示启发式相结合,以激发隐含类比连接。该方法生成表示隐含意义的扩展知识图三元组,使系统能够在没有任何标签的多模态数据中进行推理,无论其领域为何。我们通过跨越四个数据集的三种隐喻检测和理解任务验证了我们的工作,因为这些任务需要深入的类比推理能力。结果显示,这种集成方法超越了当前基线,理解视觉隐喻方面优于人类,并且提供更可解释的推理过程,尽管在隐喻理解方面仍存在固有限制,特别是对于领域特定的隐喻。此外,我们提出了一种彻底的错误分析,讨论了隐喻注释和当前评估方法中的问题。
arXiv:2504.11159v1 通知类型: 新
摘要:时间序列数据在能源预测、医疗保健和工业等领域中无处不在。使用AI系统,可以高效地处理这些领域的某些任务。可解释的人工智能(XAI)旨在通过解释模型的推理来提高AI解决方案的可靠性。对于时间序列数据,许多XAI方法提供了点级别的或序列级别的属性图。这些方法从低级模式的角度解释模型的推理,但它们没有捕捉到可能也会影响模型推理的高级模式。我们提出了一种基于概念的方法,以这些高级模式的角度提供解释。在本文中,我们介绍了适用于时间序列的C-SHAP方法,这是一种确定概念对模型结果贡献的方法。我们提供了一般意义上的C-SHAP定义,并通过时间序列分解展示了其实现示例。此外,我们通过能源领域的一个应用场景展示了该方法的有效性。
arXiv:2504.11075v1 宣告类型: 新
摘要: 婴儿往往会展现出有目标的行为,例如伸手去接触感官刺激,即使没有提供外部奖励标准。这些由内在动机驱动的行为有助于婴儿早期发育阶段自发探索和学习身体和环境。尽管计算建模可以为这些行为背后机制提供洞见,但许多现有的内生动机研究主要集中在探索如何为获取外部奖励做出贡献。在本文中,我们提出了一种新的密度模型,称为“自我先验”,用于代理本身的多模态感官体验,并探讨它能否自主引发有目标的行为。该模型整合在基于自由能原理的主动推断框架内,从一个减少平均过去感官经历与当前观察差异的内在过程生成行为参考。这一机制也类似于通过与环境的持续互动获取和利用身体模型的过程。我们在一个模拟环境中测试了这一方法,并确认代理自发地朝触觉刺激伸出手。我们的研究展示了由代理自身的感官经历塑造的内生动机行为,证明了在早期发展过程中意图行为的自发出现。
arXiv:2504.10893v1 通报类型: 新
摘要: 大型语言模型(LLMs)已表现出令人印象深刻的 capabilities,并且正在通过扩展测试时的计算能力来增强其推理能力。然而,它们在开放式的、知识密集的、复杂的推理场景中的应用仍然有限。面向推理的方法由于隐含了完整世界知识的假设,在开放式的场景中难以实现泛化。同时,知识增强推理(KAR)方法未能解决两个核心挑战:1)误差传播,早期步骤中的错误会在链条中传递;2)验证瓶颈,在多分支决策过程中会引发探索-利用权衡。为了克服这些限制,我们引入了ARise,这是一种新颖的框架,该框架结合了蒙特卡洛树搜索范式中的中间推理状态的风险评估与动态检索增强生成(RAG)。该方法使跨多个维护假设分支有效地构建和优化推理计划成为可能。实验结果表明,ARise在最新的KAR方法上显著超越了23.10%,在最新的配备RAG的大规模推理模型上显著超越了25.37%。
arXiv:2504.10865v1 宣告类型: 新
摘要: 在本文中,我们研究了投影贝尔曼方程(PBE)及其求解该方程的两种算法:线性Q学习和近似值迭代(AVI)的理论性质。我们考虑了PBE解存在的两个充分条件:严格负行占优对角(SNRDD)假设以及由AVI收敛性启发的一个条件。SNRDD假设还确保了线性Q学习的收敛性,我们还探讨了其与AVI收敛性之间的关系。最后,我们提供了在使用ε-贪心策略时PBE解的一些有趣观察。
arXiv:2504.10831v1 安全公告类型: 新
摘要: 本文提出了一种双层框架 SafeGPT,该框架将生成预训练变换器(GPTs)与强化学习(RL)相结合,以实现高效可靠的无人驾驶航空车辆(UAV)最后一英里的配送。在所提出的设计中,全局 GPT 模块分配高层任务,如区域分配,而 On-Device GPT 管理实时局部路线规划。基于 RL 的安全过滤器监控每个 GPT 的决策,并在有可能导致电池耗尽或重复访问时取代不安全的行为,从而有效地缓解幻觉现象。此外,双重重播缓冲机制有助于改进 GPT 模块和 RL 代理的策略。仿真结果表明,与仅使用 GPT 的基线相比,SafeGPT 在提高配送成功率的同时,显著降低了电池消耗和行驶距离。这些发现验证了结合基于 GPT 的语义推理与形式安全保证的有效性,为 robust 和 energy-efficient 的 UAV 物流提供了可行的解决方案。
arXiv:2504.10649v1 宣布类型: 新论文
摘要:按需拼车已成为一种流行的都市交通解决方案,通过将基于空间和时间相近的多个乘车请求合并到单个车辆中,解决了传统叫车服务的效率限制。虽然已经开发出了多种针对乘车池分配问题(Ride-pool Assignment Problem,RAP)的算法——这是拼车系统的核心组成部分,但由于缺乏开源实现,使得在共同的数据集和目标上比较这些算法变得困难。在本文中,我们介绍了涵盖多种关键乘车池分配算法的乘车池模拟器的实现细节,以及相关组件,如车辆路径规划和再平衡。此外,我们还开源了一个高度优化和模块化的 C++ 代码库,旨在方便新算法和特性的扩展。此外,我们介绍了一组基于交换的局部搜索启发式算法,以增强现有的乘车池分配算法,实现更好的性能与计算效率之间的平衡。在来自纽约市曼哈顿的大规模实际数据集上的广泛实验表明,虽然所选的所有算法表现相当,但新提出的一种名为循环交换的多轮线性分配算法(LA-MR-CE)在显著减少计算时间的同时仍能达到最先进的服务率。此外,深入分析表明,由于系统容量瓶颈,所有短视的乘车池分配算法都存在性能障碍,集成未来信息可能对克服这一限制至关重要。