arXiv 论文列表

作者: Biao Yi, Xavier Hu, Yurun Chen, Shengyu Zhang, Hongxia Yang, Fan Wu, Fei Wu

arXiv:2505.05440v1 宣告类型: 新摘要: 基于云的由(多模态)大规模语言模型((M)LLMs)驱动的移动代理提供了强大的推理能力，但存在高延迟和成本问题。虽然微调的(M)SLMs允许边缘部署，但它们往往失去了通用能力，并且难以处理复杂任务。为了解决这个问题，我们提出了一种名为EcoAgent的边缘-云协作多代理框架，用于移动自动化。EcoAgent的特点是一个基于云的规划代理与两个边缘代理之间的闭环协作：执行代理负责执行操作，观察代理负责验证结果。观察代理使用预理解模块将屏幕图像压缩为简洁的文本，减少了标记的使用量。在出现故障的情况下，规划代理通过反思模块检索屏幕历史并重新规划。在AndroidWorld上的实验展示了EcoAgent在保持高任务成功率的同时，显著减少了(多模态)大规模语言模型标记的使用量，从而实现高效且实用的移动自动化。

发布时间: 5/9/2025

查看原文

基于多模态数据和深度机器学习方法的疼痛评估框架

作者: Stefanos Gkikas

arXiv:2505.05396v1 宣告类型: 新摘要: 原始摘要：本文最初旨在从临床理论的角度研究疼痛评估过程，同时探索和检查现有的自动评估方法。在此基础上，本博士学位项目的主要目标是开发高性能且适用于实际临床环境的创新计算方法进行自动疼痛评估。一个主要目标是从计算角度来看，彻底研究和评估影响疼痛感知的关键因素，包括疼痛研究中认可的统计学要素。在本研究领域的可用数据限制下，我们的目标是设计、开发、建议并提供适用于不同场景特定要求的单模态和多模态自动疼痛评估管道。本文中发表的研究展示了所提方法的有效性，达到了最先进的成果。此外，它们为探索人工智能、基础模型和生成性人工智能的新方法开辟了道路。

发布时间: 5/9/2025

查看原文

通过分层安全性抽象解释促进神经网络验证

作者: Luca Marzari, Isabella Mastroeni, Alessandro Farinelli

arXiv:2505.05235v1 Announce Type: new 摘要：传统的深度神经网络（DNN）形式化验证（FV）方法受限于对安全属性的二进制编码，其中模型被分类为安全或不安全（稳健或不稳健）。这种二进制编码无法捕捉模型中的细微安全程度，往往导致过于严格的或过于宽松的要求。在本文中，我们提出了一个新的问题形式化称为抽象DNN验证，它可以验证不安全输出的分层结构，为给定的DNN提供更精细的安全性分析。关键的是，通过利用抽象解释并推理输出可达集，我们的方法在形式化验证过程中能够评估多个安全性级别，所需计算努力（在最坏情况下）与传统的二进制验证方法相当，甚至可能更少。具体来说，我们展示了这种形式化如何根据其抽象安全性级别违规对对抗性输入进行排名，提供了对模型安全性和稳健性的更详细评估。我们的贡献包括对我们的新型抽象安全性形式化与现有使用抽象解释进行稳健性验证的方法的关系的理论探索，对所引入的新问题的复杂性分析，以及考虑基于Habitat 3.0的复杂深度强化学习任务和标准DNN验证基准的实证评估。

发布时间: 5/9/2025

查看原文

ChemRxivQuest：一个源自ChemRxiv预印本的 curated 化学问答数据库

作者: Mahmoud Amiri, Thomas Bocklitz

arXiv:2505.05232v1 通知类型: 新摘要: 化学文献的迅速扩展给研究人员高效获取专业领域知识带来了重大挑战。为了支持针对化学领域的自然语言处理（NLP）的发展，我们介绍了ChemRxivQuest，这是一个包含970个高质量问答（QA）对的数据集，这些问答对源自155篇来自17个化学子领域的ChemRxiv预印本。每个QA对都明确链接到其原始文本段落，以确保可追溯性和上下文准确性。ChemRxivQuest是通过结合光学字符识别（OCR）、基于GPT-4o的问答生成以及模糊匹配技术进行答案验证的自动化管道构建的。该数据集侧重于概念性、机制性、应用性和实验性问题，使其实现在检索型问答系统、搜索引擎开发以及针对特定领域的大型语言模型微调等方面的应用。我们分析了该数据集的结构、覆盖范围和局限性，并提出了扩展和专家验证的未来方向。ChemRxivQuest为化学NLP研究、教育和工具开发提供了一个基础资源。

发布时间: 5/9/2025

查看原文

社会和技术的进步如同缝制一张不断增长、变化、斑驳且多彩的拼布

作者: Joel Z. Leibo, Alexander Sasha Vezhnevets, William A. Cunningham, S\'ebastien Krier, Manfred Diaz, Simon Osindero

arXiv:2505.05197v1 宣告类型: 新摘要: 人工智能（AI）系统越来越多地处于其决策具有实际后果的位置，例如调节在线空间、进行研究和提供政策建议。确保它们以安全且伦理上可接受的方式运行至关重要。然而，大多数解决方案都是一种一刀切的“对齐”形式。我们担心，这类系统忽视持久的道德多样性，可能会引发抵制、侵蚀信任，并瓦解我们的机构。本文将这一根本问题追溯到一个通常未明言的理性趋同公理：在理想条件下，理性的行动者将在长期对话中趋于一致，达成单一的道德准则。将这一前提视为可选且存疑的，我们提出了所谓的适当性框架：这是一种基于冲突理论、文化演化、多智能体系统和机构经济学的方法。适当性框架将持续的分歧视为常态，并通过应用四个原则进行设计：（1）情境基础，（2）社群定制，（3）持续适应，以及（4）多层次治理。我们认为，采用这些设计原则是一种将主要对齐比喻从道德统一转向更有效的冲突管理比喻的好方法，并且采取这一步骤既是值得向往的，也是紧迫的。

发布时间: 5/9/2025

查看原文

Memory Augmented Knowledge Refinement

作者: Anish Ganguli, Prabal Deb, Debleena Banerjee

arXiv:2505.05177v1 宣布类型: 新摘要: 大型语言模型（LLMs）在辅助专业任务方面表现出色，但在不进行昂贵的微调的情况下与不断演变的专业知识对接上存在困难。专业知识包含：知识：不可改变的事实（例如，“石头是固体”）和普遍接受的原则（例如，伦理标准）；精炼记忆：由业务需求和现实世界变化不断塑造的见解。然而，领域专家的深刻、细腻的理解与系统中的专业知识之间往往存在显著差距，这可能阻碍准确的信息检索和应用。我们的Memory-Augmented Refinement of Knowledge（MARK）框架通过利用结构化的精炼记忆，结合Mind Society的理念，使LLMs能够不必重新训练即可持续学习。MARK通过专门的代理运作，每个代理承担不同的角色：残差精炼记忆代理：存储和检索特定领域的见解，以保持长期上下文；用户问题精炼记忆代理：捕获用户提供的情感、缩写和术语以提高理解；LLM响应精炼记忆代理：从响应中提取关键元素进行精炼和个人化。这些代理分析存储的精炼记忆，检测模式，解决冲突，并提高响应准确性。时间因素，如近期和频率，优先考虑相关的信息，同时摒弃过时的见解。MARK以多种方式增强LLMs：事实核查策略：通过建立结构化参考来减少幻觉；领域特定适应：对于像医疗保健、法律和制造业这样的领域至关重要，在这些领域，专有见解通常不在公开数据集中；个性化AI助手：通过记住用户偏好，确保长期的连贯响应，从而提高虚拟助手的质量。

发布时间: 5/9/2025

查看原文

AI代理的成功率是否有半衰期?

作者: Toby Ord

arXiv:2505.05115v1 更新类型: 新摘要: 在Kwa等人(2025)的近期实证研究基础上，我表明，在他们研究-工程任务套件中，AI代理在较长持续时间任务上的表现可以用一个极其简单的数学模型来解释——在人类完成任务所需的时间内的每分钟失败率保持恒定。这暗示了随任务长度呈指数下降的成功率，并且每个代理都可以通过其自身的半衰期来表征。这种实证规律使我们能够估计代理在不同任务长度下的成功率。而该模型与数据的良好拟合暗示了较长任务失败的根本原因——它们涉及越来越多的子任务集合，其中任何一个子任务的失败都会导致整个任务失败。尚不清楚该模型在其他任务套件中的适用性如何，这是进一步工作中一个重要的话题。

发布时间: 5/9/2025

查看原文

多智能体具身AI：进展与未来方向

作者: Zhaohan Feng, Ruiqi Xue, Lei Yuan, Yang Yu, Ning Ding, Meiqin Liu, Bingzhao Gao, Jian Sun, Gang Wang

arXiv:2505.05108v1 体现类型: 新摘要: 体态人工智能（Embodied AI）在智能时代先进技术的应用中扮演着关键角色，其中AI系统与物理身体结合，使它们能够感知、推理和与其环境交互。通过使用传感器作为输入和执行器作为动作，这些系统可以根据真实世界的反馈进行学习和适应，从而使它们能够在动态和不可预测的环境中有效地执行任务。随着深度学习（DL）、强化学习（RL）和大规模语言模型（LLMs）技术的成熟，体态人工智能已经成为了学术界和产业界的领军领域，其应用范围覆盖了机器人技术、医疗保健、交通和制造等领域。然而，大多数研究主要集中于单个代理系统，常常假设静态、封闭的环境，而真实的体态人工智能必须导航更加复杂的场景。在这种背景下，代理不仅需要与周围环境交互，还需要与其他代理协作，这需要复杂的适应机制、实时学习和协作问题解决机制。尽管对多代理系统越来越感兴趣，现有的研究仍然局限于狭窄的范围，经常依赖于简化模型，无法捕捉多代理体态人工智能中动态、开放环境下复杂性的全貌。此外，还没有系统性的综述全面回顾这一领域的进展。随着体态人工智能迅速发展，深入了解多代理体态人工智能以应对现实应用带来的挑战变得至关重要。为填补这一空白并促进该领域的进一步发展，本文回顾了当前的研究状态，分析了关键贡献，并指出了面临的挑战和未来方向，提供了指导创新和进步的见解。

发布时间: 5/9/2025

查看原文

基于关系和时间知识的神经符号序列分类框架

作者: Luca Salvatore Lorello, Marco Lippi, Stefano Melacci

arXiv:2505.05106v1 宣告类型: 新摘要: 神经符号人工智能的一个目标是利用背景知识以提高学习任务的性能。然而，大多数现有的框架集中在知识不随时间变化的简化场景，并未涵盖时间维度。在这项工作中，我们考虑了一个更具挑战性的问题，即基于知识的数据序列分类，其中在不同的时间步需使用不同的知识部分，并且可用的时间关系。我们的实验评估比较了多阶段神经符号和仅神经架构，并在新引入的基准框架上进行。结果展示了这一新颖设置的挑战性，并揭示了神经符号方法未充分利用的不足之处，为未来的研究提供了宝贵的参考。

发布时间: 5/9/2025

查看原文

增强用于模拟IC布局规划的强化学习方法——带束搜索算法

作者: Sandro Junior Della Rovere, Davide Basso, Luca Bortolussi, Mirjana Videnovic-Misic, Husni Habal

arXiv:2505.05059v1 声明类型: 新摘要：模拟IC布局需要在设备物理特性和电路的变异性方面做出复杂的权衡。这使得使用基于学习的解决方案实现完全自动化变得困难。然而，强化学习（RL）最近取得了显著成果，特别是在解决分区规划问题方面。本文提出了一种结合RL与束搜索（BS）策略的混合方法。BS算法增强了代理的推理过程，使其能够生成灵活的分区布局，并通过适应不同的目标权重来解决拥挤问题，而无需重新训练或微调策略。此外，RL代理的一般化能力保持不变，且其处理电路特征和约束的效率也很高。实验结果表明，与标准的RL应用相比，在面积、闲置空间和半周互连线长度方面分别提高了约5-85%，代理的奖励也更高。此外，性能和效率与现有最先进的技术非常接近。

发布时间: 5/9/2025

查看原文