arXiv 论文列表

CH-MARL: 受约束的分层多智能体强化学习在可持续 maritime 物流中的应用

作者: Saad Alqithami

arXiv:2502.02060v1 公告类型: 新颖摘要: 针对温室气体排放和资源不平等等全球挑战，需要先进的人工智能驱动的自主代理协调。我们提出了一种名为CH-MARL（Constrained Hierarchical Multiagent Reinforcement Learning）的新颖框架，该框架结合了分层决策与动态约束执行和公平意识的奖励塑造。CH-MARL 使用实时的约束执行层来确保遵守全球排放限制，同时加入了公平性指标，促进资源在代理之间的公平分配。在模拟的海运物流环境中的实验显示，排放显著减少，同时公平性和运营效率也得到了提高。除了在该特定领域取得的成功，CH-MARL 为约束下的动态环境中多代理协调挑战提供了一种可扩展且可扩展性的解决方案，从而推动了强化学习的前沿。

发布时间: 2/5/2025

查看原文

使用分布式认知系统和进化策略构建认知双胞胎

作者: Wandemberg Gibaut, Ricardo Gudwin

arXiv:2502.01834v1 交互类型: 新增摘要: 本文提出了一种使用输入-输出训练和基于分布式认知架构的进化策略构建基于交互的认知孪生体（其为外部代理的计算版本）的技术。在这里，我们展示了通过端到端训练系统，使其能够协调许多简单的物理和虚拟设备，以实现对人员交互行为的良好近似，并呈现了性能指标。生成的认知孪生体后来可以用于自动化任务、生成更真实的类人人工代理，或进一步研究其行为。

发布时间: 2/5/2025

查看原文

具有代理能力的AI工作流在检测实际数据中的认知顾虑conteUs

作者: Jiazi Tian, Liqin Wang, Pedram Fard, Valdery Moura Junior, Deborah Blacker, Jennifer S. Haas, Chirag Patel, Shawn N. Murphy, Lidia M. V. R. Moura, Hossein Estiri

arXiv:2502.01789v1 Announce Type: 新的摘要：早期识别认知问题至关重要，但往往因症状表现微妙而受阻。本研究开发并验证了一个完全自动化、多代理的人工智能工作流，使用LLaMA 3 8B来识别来自Mass General Brigham的3,338份临床记录中的认知问题。该多代理工作流利用了特定任务的代理，这些代理能够动态合作从临床记录中提取有意义的见解。该工作流与由专家驱动的基准进行了比较。两者的工作流均实现了高分类性能，分别为0.90和0.91。多代理工作流在特异性方面表现出改进（1.00），并且在较少的迭代中实现了快速改进。尽管在验证数据上两者都表现出较低的性能，但多代理工作流仍保持了完美的特异性。这些发现突出了完全自动化多代理人工智能工作流在实现专家级准确性方面具有更高效率的潜力，为临床环境中检测认知问题提供了可扩展且成本效益高的解决方案。

发布时间: 2/5/2025

查看原文

链式推理的亚稳态动力学：搜索、RL和蒸馏的可证明优势

作者: Juno Kim, Denny Wu, Jason Lee, Taiji Suzuki

arXiv:2502.01694v1 宣布类型: 新摘要：提高大型语言模型（LLM）推理能力的一个关键范式是为与验证器或奖励模型的搜索分配更多的推理时计算力。这一过程可以用于细化预训练模型或将其实验模式中的推理模式提炼成更高效的模型。在本文中，我们将思维链（CoT）生成视为一个介稳态马尔可夫过程：简单的推理步骤（例如，代数变换）形成了紧密连接的集群，而困难的推理步骤（例如，应用相关定理）则在集群之间创建了稀疏且低概率的边缘，导致在更长的时间尺度上出现相变。在这一框架下，我们证明了实施奖励稀疏边缘的搜索协议可以提高CoT，通过减少达到不同集群的期望步骤数来实现。相比之下，我们确立了当模型受限于预训练图的局部信息时推理能力的上限。我们还展示了搜索所获得的信息可以用于获得更好的推理模型：（1）预训练模型可以通过策略梯度方法直接微调以偏爱稀疏边缘；此外（2）稳定态推理动态的一个压缩表示可以被提炼为一个更小且更高效的模型。

发布时间: 2/5/2025

查看原文

自动提取空间语义图以识别认知 impairment

作者: Si-Ioi Ng, Pranav S. Ambadi, Kimberly D. Mueller, Julie Liss, Visar Berisha

arXiv:2502.01685v1 声明类型: new 摘要: 对于评估认知语言障碍的图片描述中的语言内容进行分析时，现有方法往往忽略了参与者在叙述时的视觉叙述路径，这通常需要通过眼动追踪来评估。空间语义图是一种仅通过转录内容即可分析这一叙述路径的有用工具，然而它们受限于需要手动标记内容信息单元（CIUs）。在本文中，我们提出了一种自动化方法，通过自动化提取CIUs来估计空间语义图（以常用的认知语言学分析中使用的Cookie Theft图片为例）。该方法使自动化表征图片描述期间的视觉语义路径成为可能。实验表明，自动空间语义图能够有效地区分认知受损和未受损的讲话者。统计分析显示，由自动化方法提取的特征与手动方法提取的特征产生了可比的结果，甚至在感兴趣的心理学组之间产生了更大的组间差异。这些结果突显了自动化方法在提取空间语义特征方面的潜力，有助于发展用于认知障碍评估的临床语言模型。

发布时间: 2/5/2025

查看原文

冰山一角：揭示LLMs中隐藏的任务在提示 adversarial 攻击类别

作者: Sergey Berezin, Reza Farahbakhsh, Noel Crespi

arXiv:2501.18626v3 安全类型: replace-cross 摘要: 我们提出了一种针对大型语言模型（LLM）的新颖类别 jailbreak 恶意攻击，称为任务在提示（Task-in-Prompt, TIP）攻击。我们提出的方法将序列到序列任务（例如，密码解码、谜语、代码执行）嵌入到模型的提示中，以间接生成禁止输入。为了系统地评估这些攻击的有效性，我们引入了PHRYGE基准。我们证明了我们的技术成功地绕过了六种最先进的语言模型（包括GPT-4o和LLaMA 3.2）的安全防护措施。我们的发现强调了当前LLM安全对齐中的关键薄弱环节，并突显了对更高级防御策略的迫切需求。警告：本文包含仅供研究用途的不道德查询示例。

发布时间: 2/4/2025

查看原文

P4GCN：隐私保护的双人图卷积网络垂直联邦社会推荐

作者: Zheng Wang, Wanwan Wang, Yimin Huang, Zhaopeng Peng, Ziqi Yang, Ming Yao, Cheng Wang, Xiaoliang Fan

arXiv:2410.13905v3 宣告类型: replace-cross 摘要: 近年来，图神经网络（GNNs）常被用于社交推荐系统。然而，现实场景中往往存在用户隐私和业务约束方面的挑战，限制了直接访问其他平台的宝贵社交信息。尽管许多现有方法已经解决了基于矩阵分解的社交推荐问题，而无需直接访问社交数据，在相似条件下开发基于GNN的联邦社交推荐模型的研究仍相对空白。为了应对这一问题，我们提出了一种利用隐私保护的双方图卷积网络（P4GCN）的新颖垂直联邦社交推荐方法，以在无需直接访问敏感社交信息的情况下提高推荐准确性。首先，我们引入了一个Sandwich-Encryption模块，以确保协作计算过程中的全面数据隐私。其次，我们对隐私保证进行了详细的理论分析，考虑到好奇和诚实双方的参与情况。在四个真实世界数据集上的实验表明，P4GCN在推荐准确性方面优于现有最先进的方法。

发布时间: 2/4/2025

查看原文

后验均值修正流：朝着最小均方误差的 photo-realistic 图像恢复

作者: Guy Ohayon, Tomer Michaeli, Michael Elad

arXiv:2410.00418v3 通知类型: 交叉替换摘要：照片 realism 图像恢复算法通常通过失真度量（例如 PSNR、SSIM）和感知质量度量（例如 FID、NIQE）进行评估，目标是在不失真感知质量的情况下获得最低可能的失真。为了实现这一目标，当前方法通常尝试从后验分布中采样，或者优化失真损失（例如 MSE）和感知质量损失（例如 GAN）的加权和。与以往工作不同，本文特别关注在完美感知指标约束下最小化 MSE 的最佳估计器，即重建图像的分布等于真实图像的分布。最近的理论结果表明，可以通过最优运输后验均值预测（MMSE 估计）到真实图像的分布来构造这样的估计器。受这一结果的启发，我们引入了后验均值校正流（Posterior-Mean Rectified Flow，PMRF），这是一种简单但非常有效的算法，旨在近似这种最佳估计器。具体而言，PMRF 首先预测后验均值，然后使用近似所需最优运输映射的校正流模型将结果传输到高质量图像。我们研究了 PMRF 的理论用途，并证明了它在各种图像恢复任务中始终优于 previous 方法。

发布时间: 2/4/2025

查看原文

有能动性的检索增强生成：有能动性的RAG综述

作者: Aditi Singh, Abul Ehtesham, Saket Kumar, Tala Talaei Khoei

arXiv:2501.09136v3 公告类型: 替换摘要：大型语言模型（LLMs）通过实现类人文本生成和自然语言理解，已经彻底改变了人工智能（AI）。然而，它们对静态训练数据的依赖限制了它们对动态、实时查询的响应能力，导致输出过时或不准确。检索增强生成（RAG）已经作为一种解决方案出现，通过集成实时数据检索来增强LLMs，从而提供上下文相关和最新的响应。尽管有这些潜力，传统RAG系统仍受限于静态工作流程，缺乏为多步推理和复杂任务管理所需的适应性。代理检索增强生成（Agentic RAG）超越了这些局限性，通过将自主AI代理嵌入到RAG流水线中来克服这些限制。这些代理利用代理设计模式中的自我反思、计划、工具使用和多代理协作，动态管理检索策略，逐步细化上下文理解，并根据复杂的任务要求适应工作流程。这种集成使得Agentic RAG系统能够在各种应用中提供无与伦比的灵活性、可扩展性和上下文感知能力。本综述对Agentic RAG进行了全面探索，从其基本原则和RAG范式的演变开始。它详细介绍了Agentic RAG架构的分类，突显了医疗保健、金融和教育等行业中的关键应用，并分析了其实用实施策略。此外，它讨论了在这些系统中扩展方面的问题，确保伦理决策以及在实际应用中优化性能，同时详细介绍了实施Agentic RAG的框架和工具。

发布时间: 2/4/2025

查看原文

基于粒子蒙特卡罗方法的LLMs推理时缩放的概率 inference 方法

作者: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

arXiv:2502.01618v2 宣告类型: cross 摘要: 大型语言模型（LLMs）通过增加模型规模和/或数据实现了显著的性能提升。然而，最近的证据表明，这种方法的效果在递减，这促使我们在推理时间增加计算量。现有的推理时扩展方法通常使用奖励模型，将任务视为搜索问题，因此由于奖励模型中的近似误差，这种做法往往容易受到奖励作弊的影响。在本文中，我们相反将推理时扩展视为一种概率推理任务，并利用基于采样的技术来探索状态空间模型状态分布的典型集，而非直接优化其模态。我们提出了一种新颖的推理时扩展方法，通过将粒子方法的蒙特卡罗方法适应到此任务中。我们的实证评估表明，与我们的确定性搜索对应方法相比，我们的方法在各种具有挑战性的数学推理任务中的扩展率提高了4-16倍。利用我们的方法，我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次滚动中超越GPT-4o的准确度，而Qwen2.5-Math-7B-Instruct仅在32次滚动中就能达到o1级别的准确度。我们的工作不仅提供了一种有效的推理时扩展方法，还连接了概率推理丰富的文献与LLMs的推理时扩展，以在未来的工作中开发更 robust 的算法。有关代码和更多信息，请参见 https://probabilistic-inference-scaling.github.io。

发布时间: 2/4/2025

查看原文