arXiv:2502.01941v1 类型: cross
摘要:本文探讨了一个在大型语言模型(LLMs)中未被充分研究的挑战:KV缓存压缩方法对LLMs基本能力的影响。尽管现有的方法在长上下文基准测试中实现了令人印象深刻的压缩比,但它们对核心模型能力的影响仍鲜有研究。我们进行了一项全面的经验研究,评估了多种显著的KV缓存压缩方法在不同类型任务中的表现,这些任务涵盖世界知识、常识推理、算术推理、代码生成、安全以及长上下文的理解和生成。我们的分析揭示了KV缓存压缩方法在不同任务中的特定性能下降。算术推理任务对高压缩比特别敏感,不同的方法表现出17.4%-43.3%的不同性能下降。值得注意的是,DeepSeek R1 Distill模型在压缩容忍度上相比指令调优模型表现得更为稳健,只表现出9.67%-25.53%的不同程度的性能下降。基于我们对注意力模式和跨任务压缩性能的分析,我们提出了ShotKV,这是一种新颖的压缩方法,它在处理预填充和解码阶段时具有独特的处理方式,同时保持点级别语义连贯性。实验结果表明,在高压缩比下,ShotKV在长上下文生成任务中实现了9%-18%的不同程度的性能提升。
arXiv:2502.01932v1 交叉公告类型
摘要:多代理强化学习(MARL)已经取得了显著进步,主要得益于专门的试验平台的发展,这些平台使算法能够在受控但具有挑战性的场景中进行系统的评估。然而,现有的试验平台往往侧重于纯粹的虚拟仿真或有限的机器人形态,如机械臂、四足机器人和类人机器人,而忽视了受到现实物理限制的高机动平台,如无人机。为了解决这一差距,我们介绍了VolleyBots,一个新的MARL试验平台,其中多个无人机在物理动态下合作并在排球比赛中竞争。VolleyBots集成了排球规则下的轮换交互模型、结合运动控制和策略制定的分层决策过程,以及高度保真的仿真以实现无缝的仿真到现实的转移。我们提供了一系列任务,从单无人机的训练到多无人机的合作和竞争任务,还提供了代表性的MARL和博弈论算法的基准评估。在仿真中的结果显示,现有算法在处理简单的任务时很有效,但在需要低级控制和高级策略的任务中却遇到了困难。我们进一步展示了从模拟中学到的策略在现实世界无人机上的零样本部署,突显了VolleyBots在涉及敏捷机器人平台的MARL研究方面的潜力。项目页面位于https://sites.google.com/view/volleybots/home。
arXiv:2502.01930v1 宣告类型: 交叉
摘要: 在使大规模语言模型(LLMs)与人类偏好保持一致的过程中,一个主要的挑战是分布偏移问题。LLM对齐算法依赖于静态偏好数据集,并假设这些数据集准确地代表了真实世界的用户偏好。然而,用户的偏好在地理区域、人口统计、语言模式以及不断变化的文化趋势之间差异显著。这种偏好分布偏移导致了在许多实际应用中出现灾难性的对齐失败。我们使用分布鲁棒优化的原则框架来解决这一问题,开发了两种新颖的分布鲁棒直接偏好优化(DPO)算法,即Wasserstein DPO(WDPO)和Kullback-Leibler DPO(KLDPO)。我们对WDPO和KLDPO的最佳策略参数的学习样本复杂性进行了刻画。此外,我们通过为WDPO和KLDPO的挑战性的最小极大损失函数开发适当的近似方法,提出了一种可扩展的梯度下降式学习算法。我们的实验结果表明,在偏好分布偏移的情况下,WDPO和KLDPO在显著提高对齐方面具有优越的表现。
arXiv:2502.01922v1 Announce Type: 多领域
摘要:我们提出了一种专门针对异步时间序列的大语言模型(LLMs)的新颖提示设计。不同于常规的时间序列(假设在均匀时间间隔处有值),异步时间序列由发生在不规则时间间隔内的带时间戳的事件组成,每个事件用自然语言描述。我们的方法有效地利用了事件描述中的丰富自然语言,使LLMs能够利用其广泛的领域知识来进行跨不同领域和任务的推理。这使得我们能够将异步时间序列分析的范围扩展到预测之外,包括异常检测和数据插补等任务。我们进一步引入了一种新颖的随机软提示机制——随机软提示调优——这种方法显著提高了模型性能,超过了现有方法,如QLoRA。通过在实际数据集上的广泛实验,我们证明了我们的方法在不同任务和数据集上均实现了最先进的性能。
arXiv:2502.01918v1 通告类型:交叉
摘要:自主水下车辆(AUVs)在复杂的水下环境中遇到显著的能源、控制和导航挑战,特别是在近距离操作(如发射和回收,LAR)期间,流体交互和尾流效应会带来额外的导航和能源挑战。传统的路径规划方法未能包含这些详细的尾流结构,导致能源消耗增加、控制稳定性降低和更高的安全风险。本文提出了一种新颖的考虑尾流影响的三维路径规划方法,该方法完全将局部尾流效应和全球洋流整合到规划算法中。为此,创建了两种改进的 A* 算法变体——一种洋流信息路径规划器和一种尾流信息路径规划器,以评估其有效性,并训练了两种神经网络模型以近似这些规划器用于实时应用。A* 规划器和神经网络模型均采用诸如能源消耗、路径长度和遇到高流速和湍流区域的指标进行评估。结果表明,考虑尾流影响的 A* 规划器始终能够实现最低的能源消耗,并且最小化与高流速区域的相遇,能源消耗降低幅度高达 11.3%。神经网络模型观察到计算加速高达 6 个数量级,但其能源消耗增加了 4.51% 至 19.79%,最优路径减少了 9.81% 至 24.38%。这些发现强调了将详细的尾流结构整合到传统路径规划算法中的重要性,并且神经网络近似方法在提高能源效率和操作安全性方面的好处,特别是在复杂三维领域中。
arXiv:2502.01912v1 宣告类型:交叉
摘要:艺术史见证了艺术作品创作方式的重大转变,理解创造性过程成为技术艺术史中的核心问题。在文艺复兴和早期现代时期,绘画主要是由师傅指导学徒完成的,学徒们往往会对项目有所贡献。师傅在艺术和管理风格上差异显著,因此在不同师傅之间或者工作坊内乃至单个画布上,可以看到不同艺术家和工具的组合。关于如何管理不同工作坊以及艺术品是如何创作的过程的信息仍然难以获得。机器学习方法有可能通过将对笔触的分析扩展到微观尺度来揭示艺术家创造过程的新信息。然而,对工作坊绘画进行分析是一个挑战,因为涉及到的艺术家和材料的记录资料很少,这意味着没有现成的外部例子可以用来训练网络识别其贡献。在此,我们提出了一种名为配对分配训练(PAIRWISE ASSIGNMENT TRAINING FOR CLASSIFYING HETEROGENEITY,简称PATCH)的新型机器学习方法,该方法能够在没有外部训练数据的情况下识别个体艺术实践模式,或者说“真实标签”。该方法通过监督方式实现了无监督的结果,其性能优于简单统计方法和无监督机器学习方法。我们将这种方法应用于西班牙文艺复兴大师埃尔·格列柯的两幅历史绘画:《基督受洗》和《十字架上的基督与风景》,我们的研究结果关于前者有可能挑战之前将其归为工作坊成员所进行的工作。此外,我们分析的结果提供了一种衡量空间和时间上艺术实践多样性的度量方法,可用于描述艺术品。
arXiv:2502.01889v1 宣告类型: cross
摘要: 最优传输(OT)理论旨在确定从源测度 \(P\) 转运到目标测度 \(Q\) 的映射 \(T: X \to Y\),以最小化 \(\mathbf{x}\) 与其像点 \(T(\mathbf{x})\) 之间的代价 \(c(\mathbf{x}, T(\mathbf{x}))\)。基于输入可凸神经网络 OT 解决器,并结合位移稀疏映射的概念,我们在最小最大 Wasserstein 表述中引入稀疏性惩罚,促进位移向量 \(\Delta(\mathbf{x}) := T(\mathbf{x}) - \mathbf{x}\) 的稀疏性,并增强所得映射的可解释性。然而,增加稀疏性通常会降低可行性,导致 \(T_{\#}(P)\) 更显著地偏离目标测度。在低维情况下,我们提出了一种启发式框架来平衡稀疏性和可行性之间的权衡,通过在训练过程中动态调整稀疏性强度参数来实现。在高维情况下,我们直接通过约束位移向量的维度来限制,即 \(\dim(\Delta(\mathbf{x})) \leq l\),其中 \(l < d\) 且 \(X \subseteq \mathbb{R}^d\)。在满足此约束的映射中,我们旨在识别最可行的一个。这一目标可以通过适应我们的低维启发式框架来有效实现,而无需降低维度。我们在合成 sc-RNA 和真实 4i 细胞扰动数据集上验证了该方法,展示了相对于现有方法的改进。
arXiv:2502.01885v1 宣告类型:交叉
摘要:静息态功能性磁共振成像(rs-fMRI)及其衍生的功能连接网络(FCNs)已成为理解神经性疾病的关键工具。然而,由于隐私法规和多个数据源的非IID(非独立同分布)性质,协作分析和模型的一般化仍然面临重大挑战。为了缓解这些困难,我们提出了域对抗联邦学习(DAFed),这是一种专门为多站点设置中的非IID fMRI数据分析设计的全新联邦深度学习框架。DAFed 通过特征解耦来应对这些挑战,在潜在特征空间中分解为不变域和特定域的组成部分,以确保稳健的全局学习同时保留局部数据的特定性。此外,对抗训练促进了标记和未标记数据集之间的有效知识转移,而对比学习模块增强了不变域特征的全局表示。我们评估了 DAFed 在诊断自闭症谱系障碍(ASD)方面的效果,并进一步验证其在阿尔茨海默病(AD)分类中的一般化能力,显示出其分类准确性优与现有的先进方法。此外,增强的 Score-CAM 模块识别了与 ASD 和 MCI 分别显著相关的关键脑区和功能连接,揭示了不同站点之间的共享神经生物学模式。这些发现突显了 DAFed 在保护数据保密性的同时,推动多站点协作神经影像学研究的潜力。
arXiv:2502.01866v1 宣告类型: 横向
摘要: 在线持续学习(OCL)模型不断适应非稳态数据流,通常不包含任务信息。这些设置相当复杂,许多传统的持续学习(CL)方法都失败了,而在线方法(主要依赖重放)在任务迁移后会出现不稳定性。为了解决这一问题,我们将基于重放的OCL形式化为一个带有明确的重放数据KL散度约束的第二级在线联合优化。我们提出了在线曲率感知重放(OCAR),一种利用损失函数第二级信息(使用FIM的K-FAC近似)预处理梯度的方法,FIM起到稳定器的作用,防止遗忘,并且在不干扰的方向上加速优化。我们展示了如何根据连续设置调整FIM的估计,以稳定非独立非同分布数据下的第二级优化,揭示了Tikhonov正则化在稳定性和适应性权衡中的作用。实验证明,在不同的基准测试中,OCAR在持续学习指标上优于现有最佳方法,在训练过程中实现了更高的平均准确率。
arXiv:2502.01857v1 宣布类型:交叉
摘要:在信息不完整的环境中,人机协同导航具有挑战性。我们引入了CoNav-Maze,这是一个模拟机器人环境,在该环境中,机器人使用局部感知进行导航,而人类操作员则基于不准确的地图提供指导。机器人可以分享其摄像头视图以改善操作员对环境的理解。为了实现高效的人机合作,我们提出了信息增益蒙特卡罗树搜索(IG-MCTS),这是一种在线规划算法,平衡了自主移动和信息性的交流。IG-MCTS的核心是一个基于神经网络的人类感知动态模型,该模型估计人类从机器人通讯中提炼信息的方式。我们通过CoNav-Maze中的众包制图任务收集了一个数据集,并使用包含数据增强的全卷积架构训练了该模型。用户研究显示,IG-MCTS在通信量显著减少和人类认知负担降低的情况下,优于基于遥控和指令跟随的基线方法,且在任务性能方面表现相当,这一结论通过眼动追踪指标得到了证实。