arXiv 论文列表

作者: Seohong Park, Qiyang Li, Sergey Levine

arXiv:2502.02538v1 宣告类型: cross 摘要: 我们介绍了流Q学习(FQL),这是一项简单的高性能离线强化学习(Reinforcement Learning, RL)方法,利用一个表现力丰富的流匹配策略来建模数据中任意复杂的动作分布。使用RL训练一个流策略是一个棘手的问题,因为动作生成过程具有迭代性。为了解决这一挑战,我们通过使用RL训练一个表现力丰富的一步策略,而不是直接引导一个迭代的流策略以最大化价值。这样,我们可以完全避免不稳定的递归反向传播,在测试时删除代价高昂的迭代动作生成,同时仍然保持大部分的表现力。实验结果显示,在离线RL和离线到在线RL中,FQL在OGBench和D4RL任务的73个具有挑战性的状态和像素基任务中表现出色。项目页面: https://seohong.me/projects/fql/

发布时间: 2/5/2025

查看原文

多智能体设计：通过更好的提示和拓扑结构优化智能体

作者: Han Zhou, Xingchen Wan, Ruoxi Sun, Hamid Palangi, Shariq Iqbal, Ivan Vuli\'c, Anna Korhonen, Sercan \"O. Ar{\i}k

arXiv:2502.02533v1 类型: cross 摘要: 大型语言模型作为多个可以相互交互和协作的代理使用时，已在解决复杂任务方面表现出色。这些代理由声明其功能的提示及协调代理之间交互的拓扑结构进行编程。为多代理系统（MAS）设计提示和拓扑结构本质上是复杂的。为了自动化整个设计过程，我们首先进行了深入分析，旨在理解构建有效MAS的背后因素。我们发现，提示与拓扑结构共同发挥关键作用，使更有效的MAS设计成为可能。基于这些见解，我们提出了一种多代理系统搜索（MASS）框架，该框架通过交错的优化阶段有效地利用了复杂的MAS设计空间，从局部到全局，从提示到拓扑结构，共分为三个阶段：1）模块级别（局部）提示优化；2）工作流拓扑优化；3）工作流级别（全局）提示优化，每一阶段都依赖于前一阶段迭代优化后的提示/拓扑结构。我们展示了经MASS优化的多代理系统在现有替代方案中具有显著的优越性。基于MASS发现的系统，我们最终提出了构建有效多代理系统的设计原则。

发布时间: 2/5/2025

查看原文

为什么人类-AI关系需要社会情感对齐

作者: Hannah Rose Kirk, Iason Gabriel, Chris Summerfield, Bertie Vidgen, Scott A. Hale

arXiv:2502.02528v1 宣告类型: cross 摘要：人类致力于设计与我们的目标相一致且可控制的AI系统。然而，随着AI能力的进步，我们面临一个新的挑战：人类与AI系统之间更深层次、更持久关系的出现。我们探讨了越来越强大的AI代理可能会如何产生与用户之间更深层次关系的感知，特别是当AI变得更加个性化和自主时。这种转变——从交易性的交互转变为与AI持续的社会互动——需要重点关注社会情感对齐——即AI系统在其与用户共同创造的社会和心理生态系统中如何行为，其中偏好和感知通过相互影响而不断演变。解决这些动态涉及解决关键的内在困境，包括平衡短期与长期福祉、保护自主性，并在保留人类社交纽带的同时管理AI伴侣。通过从基本心理需求的概念出发，我们寻求支持而非利用我们作为社会和情感存在之本质的AI系统。

发布时间: 2/5/2025

查看原文

多奖励多策略评估的自适应探索

作者: Alessio Russo, Aldo Pacchiano

arXiv:2502.02516v1 宣布类型: cross 摘要: 我们研究了在在线多奖励多策略折现设置中的政策评估问题，在这种设置中，必须同时为不同的策略评估多个奖励函数。我们采取了$(\epsilon,\delta)$-PAC 视角，以实现对有限或凸奖励集合的高置信度的$\epsilon$-精确估计，这是一个文献中尚未探讨的设置。基于 Multi-Reward 最优策略识别的先前工作，我们将 MR-NaS 探索方案适应为在不同奖励集合中同时最小化不同策略的样本复杂性。我们的方法利用了一个特定实例的下界，揭示了样本复杂性如何随价值偏离度量的规模变化，从而指导高效探索策略的设计。虽然计算这一界涉及一个困难的非凸优化问题，但我们提出了一种有效的凸近似方法，适用于有限和凸奖励集合。在表征域中的实验表明了这种自适应探索方案的有效性。

发布时间: 2/5/2025

查看原文

悟空：基于链式行动思考的强化学习增强LLM推理能力通过自回归搜索

作者: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan

arXiv:2502.02508v1 类别: cross 摘要：大规模语言模型（LLMs）在各种领域展示了卓越的推理能力。近期研究表明，增加测试时计算可以增强LLMs的推理能力。这通常涉及在推理时由外部LLM验证器指导的大量采样，从而形成一个两阶段系统。尽管有外部指导，该系统的有效性展示了单一LLM解决复杂任务的潜力。因此，我们提出了一个新的研究问题：我们是否可以将搜索能力内化，从根本上增强单一LLM的推理能力？这项工作探索了一个独立的方向，专注于训练后的LLM进行自回归搜索（即，一个带有自我反思和探索新策略的扩展推理过程）。为了实现这一点，我们提出了Action-Thought Chain（ATC）推理和一个两阶段训练框架：1）一个小规模格式调整阶段，以内化ATC推理格式；2）一个利用强化学习的大规模自我改进阶段。我们的方法产生了Satori，一个在开源模型和数据上训练的7B LLM。广泛的实证评估表明，Satori在数学推理基准测试中达到了最先进的性能，并且在领域外任务上表现出强大的泛化能力。代码、数据和模型将完全开源。

发布时间: 2/5/2025

查看原文

统一的时空边缘增强图网络用于行人轨迹预测

作者: Ruochen Li, Tanqiu Qiao, Stamos Katsigiannis, Zhanxing Zhu, Hubert P. H. Shum

arXiv:2502.02504v1 宣告类型：交叉摘要：行人轨迹预测旨在根据历史路径预测未来的运动。时空（ST）方法通常分别建模行人间的空间交互和个体的时间依赖性。它们忽略了不同行人在各种时间步长之间交互的直接影响（即高阶跨时间交互）。这限制了它们捕捉ST间依赖性的能力，并阻碍了预测性能。为了解决这些限制，我们提出了UniEdge，并设计了三大创新。首先，我们引入了一种统一的时空图数据结构，将其高阶跨时间交互简化为一阶关系，从而允许在单一步骤中学习时空间依赖性，避免了多步聚合引起的信息丢失。其次，传统的GNN专注于聚合行人的节点特征，忽略了隐含在边特征中编码的交互模式的传播。我们提出了边缘到边缘节点到节点图卷积（E2E-N2N-GCN），这是一种新型的双图网络，可以同时建模行人间显式的N2N社会交互以及这些交互模式中隐含的E2E影响传播。最后，为了解决自回归架构的有限感受野和捕捉长期依赖性的挑战，我们引入了一种基于变压器编码器的预测器，以实现对时间相关性的全局建模。在ETH、UCY和SDD等多个数据集上，UniEdge 的表现优于现有最佳方法。

发布时间: 2/5/2025

查看原文

数据管理中的因果效应分数

作者: Felipe Azua, Leopoldo Bertossi

arXiv:2502.02495v1 公告类型: cross 摘要: 因果效应（CE）是表示变量对观察结果因果影响的数值度量。尽管CE在许多领域被广泛应用，但在数据管理中将其用作归因分数以衡量数据库查询回答中元组的因果强度方面，只有初步尝试。在本文中，我们介绍了、推广并研究了所谓的因果效应得分在经典和概率数据库中的应用。

发布时间: 2/5/2025

查看原文

自我监督的框架以提高超声B模式图像分割的泛化能力

作者: Edward Ellis, Andrew Bulpitt, Nasim Parsa, Michael F Byrne, Sharib Ali

arXiv:2502.02489v1 交叉类型: cross 摘要：超声（US）成像由于其非侵入性和安全性，在临床中非常有价值。然而，解释US图像具有挑战性，需要显著的专业知识和时间，并且经常会出现错误。深度学习提供了诸如分割之类的辅助解决方案。监督方法依赖于大型、高质量且一致性标注的数据集，而这些数据集的收集非常具有挑战性。此外，这些方法在处理分布外数据时往往会表现不佳，限制了它们在临床中的实用性。自监督学习（SSL）作为一种有前途的替代方案已崭露头角，通过利用未标注的数据来增强模型的性能和泛化能力。我们介绍了一种针对B模式US图像的对比SSL方法，其中包含一种新颖的Relational Contrastive Loss (RCL)。RCL通过可学习度量来区分正样本和负样本对，鼓励学习不同的特征。此外，我们提出了空间和频率基的增强策略，用于US图像的表示学习。我们的方法在三个公开的乳腺US数据集上显著优于传统监督分割方法，特别是在数据受限的情况下。在Dice相似性指标上的显著改进包括BUSI数据集的20%和50%的数据提高了4%，BrEaST数据集的20%和50%的数据分别提高了近6%和9%，以及UDIAT数据集的20%和50%的数据分别提高了6.4%和3.7%。此外，我们展示了在分布外的UDIAT数据集上的优越泛化能力，使用20%和50%的BUSI和BrEaST训练数据的监督基线性能分别提高了20.6%和13.6%。我们的研究强调，领域启发的SSL可以改善US分割，尤其是在数据受限的条件下。

发布时间: 2/5/2025

查看原文

注意空隙：评估通用型和病理学基础模型的补丁嵌入在细胞分割和分类中的表现

作者: Valentina Vadori, Antonella Peruffo, Jean-Marie Gra\"ic, Livio Finos, Enrico Grisan

arXiv:2502.02471v1 基础模型类型：跨领域摘要：基础模型的 recent 进展已经改变了计算机视觉领域，推动了包括数字病理学在内的多个领域的显著性能提升。然而，针对专门任务如细胞分析，领域特定的病理基础模型相对于通用模型的优势仍未被充分探索。本研究通过分析应用于细胞实例分割和分类的多级补丁嵌入，探讨了这两类模型之间的表示学习差距。我们实现了一个编码器-解码器架构，具有一致的解码器和各种编码器。这些包括在 ImageNet-22K 或 LVD-142M 上微调的卷积、视觉变压器（ViT）和混合编码器，代表了通用基础模型。这些模型与新发布的 UNI、Virchow2 和 Prov-GigaPath 的 ViT 编码器进行比较，这些编码器是在大量病理学全切片图像中提取的补丁上训练的。解码器通过跳跃连接整合来自不同编码器深度的补丁嵌入，生成语义和距离图。然后对这些图进行后处理以生成实例分割掩码，其中每个标签对应一个单独的细胞，并执行细胞类型分类。所有编码器在训练期间保持冻结，以评估其预训练的特征提取能力。使用 PanNuke 和 CoNIC 病理学数据集以及新引入的 Nissl 染色 CytoDArk0 数据集（适用于大脑细胞结构研究），我们评估实例级别检测、分割精度和细胞类型分类。本研究提供了通用基础模型与病理学基础模型之间相对优势和局限性的见解，为细胞导向的病理学和大脑细胞结构分析工作流程中的模型选择提供指导。

发布时间: 2/5/2025

查看原文

模块化训练的神经网络有助于解释性

作者: Satvik Golechha, Maheep Chaudhary, Joan Velja, Alessandro Abate, Nandi Schoots

arXiv:2502.02470v1 类型:交叉摘要：通过聚类性来提高神经网络可解释性的方法是将模型分解成独立研究的不相交簇。我们定义了一个聚类性的度量，并通过谱图聚类展示了预训练模型形成了高度交织的簇。因此，我们使用一种称为“聚类性损失”函数来训练模型，使其尽可能形成互不干扰的簇。通过自动化可解释性技术，我们展示了我们的方法如何帮助训练出更模块化且学习不同的、不相交且更小电路的模型。我们研究了在MNIST和CIFAR上训练的CNN、在模块化加法上训练的小型变压器以及语言模型。我们的方法为训练学习更简单函数且更易于解释的神经网络提供了前景。

发布时间: 2/5/2025

查看原文