arXiv 论文列表

作者: Lijun Sun, Yijun Yang, Qiqi Duan, Yuhui Shi, Chao Lyu, Yu-Cheng Chang, Chin-Teng Lin, Yang Shen

arXiv:2502.14743v1跨领域公告类型：交叉摘要：多智能体协调研究探讨了多种多智能体系统（MAS）中多样化趋势传播的内在机制，并随着新兴应用的扩展和快速AI进步而引起了越来越多的关注。本文综述了通过统一的理解解决多智能体协调的四个基本问题当前状态：（1）什么是协调；（2）为什么需要协调；（3）与谁协调；（4）如何协调。我们的目的是探索协调领域现有的想法和专业知识及其在各种应用之间的联系，同时识别和强调新兴和有前途的研究方向。首先，确定了对各种应用至关重要的基本的协调问题并进行分析。其次，概述了几种MAS应用，从广泛研究的领域，如搜索与救援、仓库自动化和物流、交通运输系统，到新兴领域，包括人形机器人、类人机器人、卫星系统和大型语言模型（LLM）。最后，分析和讨论了MAS的扩展性、异构性和学习机制方面的开放挑战。特别是，我们将分层和分散协调的混合、人-MAS协调以及基于LLM的MAS识别为有前途的未来方向。

发布时间: 2/21/2025

查看原文

YOLOv12：关键架构特性剖析

作者: Mujadded Al Rabbani Alif, Muhammad Hussain

arXiv:2502.14740v1 交叉公告类型：cross 摘要：本文对YOLOv12的架构进行了分析，YOLOv12是基于其前代的优势实现的单阶段实时目标检测的重要进步，并引入了关键改进。该模型包含了优化的骨干网络（R-ELAN）、7x7 分离卷积以及由FlashAttention驱动的基于区域的注意力机制，这些改进提高了特征提取、提升了效率并增强了检测的稳健性。与前代模型类似，YOLOv12 提供了适用于低延迟和高精度应用的可扩展解决方案。实验结果表明，YOLOv12 在平均准确度均值（mAP）和推断速度方面均表现出了持续的改进，使其成为自主系统、安全和实时分析应用的理想选择。通过在计算效率和性能之间实现最佳平衡，YOLOv12 为实时计算机视觉设立了新的基准，为其在从边缘设备到高性能集群的各种硬件平台上的部署提供了便利。

发布时间: 2/21/2025

查看原文

EAGER-LLM：通过外部行为语义集成增强大型语言模型的推荐能力

作者: Minjie Hong, Yan Xia, Zehan Wang, Jieming Zhu, Ye Wang, Sihang Cai, Xiaoda Yang, Quanyu Dai, Zhenhua Dong, Zhimeng Zhang, Zhou Zhao

arXiv:2502.14735v1 交叉公告类型摘要：大型语言模型（LLMs）越来越多地被用作先进推荐系统开发的基础框架，通过它们广泛的知识和推理能力提供了增强的功能。现有的基于LLM的推荐系统（RSs）通常会因为预训练LLM的语言语义与RS所需的合作语义之间存在显著差异而面临挑战。这些系统使用预训练的语言语义，但通过LLM主干重新学习合作语义。然而，LLMs并非为推荐设计，导致不高效的协作学习、结果关联性弱和与传统RS功能的不良整合。为了解决这些挑战，我们提出了EAGER-LLM，这是一种仅解码器的基于LLM的生成推荐框架，以非侵入方式整合内生和外生的行为和语义信息。具体来说，我们提出了：1) 双源知识丰富项目索引，将外生信号的索引序列整合在一起，实现高效的链路级处理；2) 无需侵入式的多尺度对齐重建任务，引导模型更深入地理解协作和语义信号；3) 退火适配器，旨在精确平衡模型的推荐性能与理解能力。我们通过在三个公开基准上的严格测试展示了EAGER-LLM的有效性。

发布时间: 2/21/2025

查看原文

wavRAG：集成音频的检索增强生成对话模型

作者: Yifu Chen, Shengpeng Ji, Haoxiao Wang, Ziqing Wang, Siyu Chen, Jinzheng He, Jin Xu, Zhou Zhao

arXiv:2502.14727v1 宣告类型: cross 摘要: 由于其能够增强大型语言模型（LLM）整合外部知识的能力，检索增强生成（RAG）已得到广泛应用。然而，现有的 RAG 框架主要针对文本基的 LLM，并依赖于自动语音识别（ASR）处理语音输入，这会丢弃关键的音频信息、增加转录错误风险，并增加计算负担。因此，我们提出了 WavRAG，这是第一个具有原生端到端音频支持的检索增强生成框架。WavRAG 提供了两个关键特性：1) 跳过 ASR，WavRAG 直接处理原始音频以进行嵌入和检索；2) WavRAG 将音频和文本整合为统一的知识表示。具体来说，我们提出了 WavRetriever 来促进从文本-音频混合知识库中检索，并通过将思考过程推理整合到其中来进一步提高口语对话模型的上下文能力。与最先进的 ASR-Text RAG 管道相比，WavRAG 在检索性能上达到可比水平的同时，实现了10倍的加速。此外，WavRAG 的独特文本-音频混合检索能力将 RAG 的边界扩展到了音频模态。

发布时间: 2/21/2025

查看原文

基于进化动力学在动态博弈中排名联合策略

作者: Natalia Koliou, George Vouros

arXiv:2502.14724v1 交叉公告类型摘要：博弈论解概念，如纳什均衡，一直是寻找多玩家游戏中稳定联合行动的关键。然而，研究表明，即使是简单的小型二人博弈，由于策略较少，参与者的互动动态也无法达到纳什均衡，而是表现出复杂且难以预测的行为。相反，进化方法可以描述策略的长期持久性并筛选掉暂时性的策略，从而考虑参与者互动的长期动态。我们的目标是在动态博弈中识别出能够抵抗变化的稳定行为的联合策略，同时还需考虑参与者的收益。为此，基于先前的结果，本文提出通过考虑参与者的策略而非行动，将动态博弈转换为其实验形式，并运用进化方法$\alpha$-Rank来评估和排名根据其长期动态的策略配置。该方法不仅可以帮助我们识别通过参与者的长期互动而强大的联合策略，还提供了一个关于这些策略高排名的描述性、透明框架。实验关注的是解决随机版本的图着色问题的合作行为。我们通过不同的玩法风格定义实验博弈中的策略，并使用DQN算法训练实现这些策略的策略。然后我们运行模拟以生成$\alpha$-Rank所需生成收益矩阵，用于排名联合策略。

发布时间: 2/21/2025

查看原文

人类对生成型AI对齐的错觉：一个实验室实验

作者: Kevin He, Ran Shorrer, Mengjia Xia

arXiv:2502.14708v1 宣告类型：交叉摘要：我们进行了一项激励实验室实验，以研究人们在经济决策背景下对生成式人工智能（GenAI）对齐的认知。使用涵盖风险、时间偏好、社会偏好和战略互动领域的经济问题面板，我们要求人类受试者为自己作出选择，并预测GenAI代表人类用户所作出的选择。我们发现，人们高估了GenAI选择与人类选择之间的对齐程度。在每个问题中，人类受试者对其认为GenAI选择的平均预测比对其自身选择的平均预测与GenAI选择更为接近。在个体层面上，对于给定问题，不同受试者对其认为GenAI选择的预测与他们自身在相同问题中的选择高度相关。我们在一个简单的理论模型中探讨了人们高估GenAI对齐的影响。

发布时间: 2/21/2025

查看原文

不是所有数据都是好标签：关于时间序列预测的自我监督标注

作者: Yuxuan Yang, Dalin Zhang, Yuxuan Liang, Hua Lu, Huan Li, Gang Chen

arXiv:2502.14704v1 交叉公告类型：时间序列预测摘要：时间序列预测（TSF）在各个领域都是一个关键任务，但现有的TSF模型严重依赖高质量数据，并未能充分利用所有可用数据。本文探索了一种新颖的自监督方法，通过内在构建候选数据集来重新标记时间序列数据集。在简单重建网络的优化过程中，中间结果被用作自监督范式中的伪标签，从而提高任何预测器的泛化能力。我们引入了自校正与自适应掩码（SCAM），该方法丢弃了过拟合的组件，并选择性地用来自重建的伪标签替换它们。此外，我们从损失景观的角度引入了频谱范数正则化（SNR），进一步抑制过拟合。在11个真实世界数据集上的实验表明，SCAM能够一致地提高各种骨干模型的性能。这项工作为通过自监督学习构建数据集和增强TSF模型的泛化能力提供了新的视角。

发布时间: 2/21/2025

查看原文

基于德尔塔方差的通用不确定性估计

作者: Simon Schmitt, John Shawe-Taylor, Hado van Hasselt

arXiv:2502.14698v1 类型: cross 摘要: 决策者可能会因数据有限而遭受不确定性的影响。这可以通过考虑表征性不确定性来减轻，但对于大型神经网络来说，高效地估算表征性不确定性具有挑战性。为此，我们研究了Δ方差族算法，这是一种计算上高效且易于实现的表征性不确定性量化方法。它可以应用于包含神经网络的神经网络和其他更一般的由神经网络组成的函数。以一个带有基于神经网络的步进函数的天气模拟器为例——在这里，Δ方差在单次梯度计算的成本下获得了可竞争的结果。该方法方便的是，它不需要对神经网络架构或训练程序进行任何更改。我们从理论上讨论了多种方法来推导Δ方差，指出特殊情况可以恢复流行的技术，并提供对多种相关方法的统一视角。最后，我们观察到这种通用视角导致了一个自然的扩展，并通过实验展示了其益处。

发布时间: 2/21/2025

查看原文

seqKAN: 基于柯尔莫哥洛夫-阿诺尔德网络的序列处理

作者: Tatiana Boura, Stasinos Konstantopoulos

arXiv:2502.14681v1 宣告类型: cross 摘要：柯尔莫戈罗夫-阿诺尔德网络（KANs）最近被提议作为一种比多层感知机更具可解释性和可控性的机器学习框架。在KAN框架下，已经提出了多种网络结构，针对不同的任务和应用领域，包括序列处理。本文提出了一种新的用于序列处理的KAN架构——seqKAN。尽管已经提出了多种序列处理KAN架构，但我们认为seqKAN更忠实地体现了KAN框架的核心概念。此外，我们通过实验表明，它取得了更好的结果。实验评估是在一个复杂的物理问题生成的数据上进行的，用于内插和外推任务。使用该数据集，我们将seqKAN与以前的用于时间序列预测的KAN网络、循环深度网络以及符号回归进行了对比。seqKAN在所有架构中表现最佳，尤其是在外推数据集中表现尤为显著，同时也是最透明的。

发布时间: 2/21/2025

查看原文

数据约束条件下的训练数据合成以实现去识别化

作者: Thomas Vakili, Aron Henriksson, Hercules Dalianis

arXiv:2502.14677v1 哈恩类型: 交叉摘要: 许多敏感领域——如临床领域——由于隐私风险缺乏广泛可用的数据集。大型语言模型（LLMs）不断增强的生成能力使合成数据集成为可行的选择。在本研究中，我们将LLMs适应临床领域，并使用功能强大的基于编码器的NER模型对生成的临床文本进行机器注释，标注个人可识别信息。然后使用这些合成语料库训练合成NER模型。结果表明，使用合成语料库训练NER模型仅会导致轻微的预测性能下降。我们在系统性消融研究中进一步探讨了这一过程的局限性——使用瑞典语和西班牙语数据。我们的分析显示，较小的语料库可以满足将LLMs适应于数据合成的需求。相反，这一过程的有效性几乎完全取决于使用原始数据训练的机器注释NER模型的性能。

发布时间: 2/21/2025

查看原文