arXiv:2502.01956v1 交叉公告类型
摘要:本文探讨了使用层次强化学习(HRL)解决长期视觉规划任务的挑战。我们的主要贡献是一种离散层次规划(DHP)方法,这是一种替代传统的基于距离的方法。我们为该方法提供了理论基础,并通过广泛的实验评估展示了其有效性。
我们的代理递归地预测长期目标下的子目标,并通过将抽象动作组合来构造计划以获得离散奖励。该方法引入了一种新的树轨迹优势估计策略,这种策略自然地鼓励更短的计划并使泛化超出了最大树深度。学习到的策略函数使代理能够高效地规划,只需要 $\log N$ 计算步骤,这使得重新规划非常高效。该代理基于软目标批评家(SAC)框架,使用在线策略想象数据进行训练。此外,我们提出了一种新颖的探索策略,使代理能够为规划模块生成相关的训练示例。在25个房间环境中的长期视觉规划任务中,我们的方法在成功率和平均回合长度方面显著优于之前的标准。此外,消融研究强调了关键模块对整体性能的单独贡献。
arXiv:2502.01949v1 宣告类型: cross
摘要:近年来,文本引导的3D场景生成领域引起了广泛关注。高质量生成且与物理现实一致和高度可控的场景对于实际3D场景应用至关重要。然而,现有方法面临着基本的局限性:(i) 难以捕捉文本中描述的多个对象之间的复杂关系,(ii) 无法生成物理上合理的场景布局,以及(iii) 组合场景的可控性和扩展性不足。在本文中,我们引入了LayoutDreamer框架,该框架利用3D Gaussian Splatting (3DGS) 来促进由文本引导的高质量、物理一致的组合场景生成。具体来说,给定一个文本提示,我们将它转换成有向场景图,并根据需要调整初始组合3D高斯分布的密度和布局。随后,基于训练焦距对动态相机进行调整,以确保实体级别的生成质量。最后,通过从场景图中提取有向依赖关系,我们定制物理和布局能量,以确保现实感和灵活性。全面的实验结果表明,LayoutDreamer在其他组合场景生成质量和语义对齐方法中表现更优。具体而言,它在T3Bench的多对象生成度量标准上达到了最先进的性能(SOTA)。
arXiv:2502.01942v1 类型:跨领域
摘要:观点三元组提取(ASTE)任务旨在从给定句子中提取方面术语、意见术语及其对应的情感极性。它仍然是细粒度情感分析中最重要的子任务之一。现有的大多数方法将三元组提取视为端到端的二维表格填充过程,主要关注词汇级别的交互,而往往忽略了句子级别的表示。这种限制阻碍了模型捕捉全局上下文信息的能力,特别是在处理复杂句子中的多词方面和意见术语时。为了解决这些问题,我们提出了边界驱动的表格填充与跨粒度对比学习(BTF-CCL)方法,以增强句子级别表示和词汇级别表示之间的语义一致性。通过构建正样本和负样本对,模型被迫在句子级别和词汇级别学习关联。此外,我们提出了多尺度、多粒度卷积方法以更好地捕捉丰富的语义信息。我们的方法可以在保持对局部细节敏感的同时更有效地捕捉句子级别的上下文信息。实验结果显示,根据F1分数,所提出的方法在公共基准测试上达到了最先进的性能。
arXiv:2502.01941v1 Announce Type: cross
摘要:这篇论文探讨了大型语言模型(LLMs)中一个尚未充分研究的挑战:KV缓存压缩方法对LLMs根本能力的影响。虽然现有方法在长上下文基准测试中取得了令人印象深刻的压缩比,但它们对核心模型能力的影响尚未充分研究。我们进行了一项综合的实证研究,评估了各种知名的KV缓存压缩方法在不同任务中的表现,这些任务涵盖了世界知识、常识推理、算术推理、代码生成、安全性以及长期上下文的理解与生成。我们的分析揭示了KV缓存压缩方法在不同任务中表现出特定的性能下降。算术推理任务特别敏感于激烈的压缩,不同方法的性能下降幅度在17.4%-43.3%之间。值得注意的是,DeepSeek R1 Distill模型表现出更强的压缩容忍度,相较于指令微调模型,其性能下降幅度仅为9.67%-25.53%。基于我们对注意力模式和跨任务压缩性能的分析,我们提出了ShotKV,这是一种新颖的压缩方法,它在预填和解码阶段分别处理问题,同时保持短程语义连贯性。实验结果显示,在激烈的压缩比下,ShotKV在长上下文生成任务中取得了9%-18%的性能提升。
arXiv:2502.01932v1 类别: cross
摘要:多智能体强化学习(MARL)取得了显著进展,这主要是由于专门的测试床的发展,这些测试床在可控且富有挑战性的场景中系统地评估了算法。然而,现有的测试床往往侧重于纯粹的虚拟模拟或有限的机器人形态,如机械臂、四足机器人和类人形机器人,而对具有现实物理约束的高移动性平台,如无人机,则研究不足。为了弥合这一差距,我们提出了VolleyBots,这是一个新的MARL测试床,其中多个无人机在物理动力学条件下进行排球比赛的合作与竞争。VolleyBots 特点包括遵循排球规则的回合制交互模型、结合运动控制与战略决策的分层决策过程以及高保真模拟,以便无缝实现从模拟到现实的转换。我们提供了一系列任务,从单无人机训练到多无人机的协作与竞争任务,还提供了代表性MARL和博弈理论算法的基本评估。在模拟中的结果显示,现有算法在处理简单任务时表现良好,但在需要低级控制和高级策略的任务中却遇到困难。进一步展示了从模拟学到实际部署的零样本部署策略,突显了VolleyBots 在促进涉及敏捷机器人平台的MARL研究方面的潜力。项目页面位于 https://sites.google.com/view/volleybots/home。
arXiv:2502.01930v1 类型: cross
摘要: 在使大型语言模型(LLMs)与人类偏好对齐方面的一个主要挑战是分布偏移问题。LLM对齐算法依赖于静态偏好数据集,假定它们准确地代表了真实世界的用户偏好。然而,用户偏好在地理位置、人口统计、语言模式和不断演变的文化趋势方面存在显著差异。这种偏好分布偏移导致许多实际应用中的灾难性对齐失败。我们使用分布稳健优化的原理框架来解决这个问题,并开发了两种新颖的分布稳健直接偏好优化(DPO)算法,即Wasserstein DPO(WDPO)和Kullback-Leibler DPO(KLDPO)。我们描述了学习WDPO和KLDPO的最优策略参数所需的样本复杂度。此外,我们通过开发适合的近似来解决WDPO和KLDPO的具有挑战性的 minimax 损失函数,提出了可扩展的梯度下降式学习算法。我们的实证实验表明,当存在偏好分布偏移时,WDPO和KLDPO在显著提高对齐方面表现出更优越的性能。
arXiv:2502.01922v1 Announce Type: cross
摘要:我们提出了一种针对异步时间序列的大语言模型(LLMs)新型提示设计。与常规的时间序列不同,常规时间序列假设在均匀间隔的时间点上取值,而异步时间序列则包含在不规则时间间隔发生的带时间戳的事件,每个事件用自然语言描述。我们的方法有效地利用了事件描述中丰富的自然语言,允许大语言模型利用其广泛的世界知识在不同领域和任务中进行推理。这使得我们能够将异步时间序列分析的范围扩展到预测之外,包括异常检测和数据插补等任务。我们进一步引入了一种新颖的随机软提示机制——随机软提示调优,显著提高了模型性能,超越了现有的微调方法如QLoRA。通过在实际数据集上的广泛实验,我们展示了我们的方法在不同任务和数据集上取得了最先进的性能。
arXiv:2502.01918v1 宣告类型:交叉
摘要:在复杂水下环境中,自主水下车辆(AUVs)在进行近距离操作,如发射和回收(LAR)时,会遇到显著的能源、控制和导航挑战,尤其是由于流体相互作用和尾流效应带来的额外导航和能源挑战。传统的路径规划方法未能纳入这些详细的尾流结构,导致能源消耗增加、控制稳定性降低以及更高的安全风险。本文提出了一种新颖的尾流导向的三维路径规划方法,该方法完全结合了局部尾流效应和全球水流到规划算法中。创建了两种A*算法的变体——一个水流导向的规划器和一个尾流导向的规划器,以评估其有效性,并训练了两种神经网络模型来近似这些规划器以供实时应用。A*规划器和神经网络模型都使用诸如能源消耗、路径长度和与高流速和湍流区域的遭遇等重要指标进行评估。结果表明,尾流导向的A*规划器始终实现最低的能源消耗,并减少了与高流速区域的相遇次数,能源消耗最多可降低11.3%。观察到神经网络模型在计算速度上提升了6个数量级,但展现出4.51-19.79%更高的能源消耗和9.81-24.38%更次优的路径。这些发现强调了在传统路径规划算法中纳入详细尾流结构的重要性,并表明神经网络近似有助于增强AUVs在复杂三维域中的能源效率和操作安全性。
arXiv:2502.01912v1 类型: 交叉
摘要:艺术的历史已经见证了艺术品创作方式的重大转变,这使得对创造过程的理解成为技术艺术历史中的一个核心问题。在文艺复兴和早期现代时期,绘画主要由大师画家指导学徒创作,而这些学徒往往还会参与到项目中来。大师们的艺术和管理风格各不相同,这意味着不同大师之间以及工作坊内部或甚至是单个画布上,可能呈现出不同的艺术家和工具组合。关于不同工作坊是如何管理的以及艺术品是如何创作的详细信息依然难以捉摸。机器学习方法有可能通过将画笔痕迹的分析细化到微米级别,揭示艺术家的创作过程的新信息。然而,分析工作坊绘画面临着挑战,因为涉及的艺术家和材料的记录较为稀少,这意味着没有外部实例可以用来训练网络来识别他们的贡献。在这里,我们提出了一种新颖的机器学习方法——我们称之为配对分配训练进行异质性分类(PATCH)——这种方法能够在没有外部训练数据或“真实标签”的情况下识别单独的艺术实践制度。该方法通过监督手段实现了无监督的结果,并优于简单的统计方法和无监督的机器学习方法。我们将此方法应用于西班牙文艺复兴大师埃尔·格列柯的两幅历史绘画:《基督受洗》和《带有风景的十字架上的基督》,我们的研究结果可能挑战之前将绘画归属于工作坊成员的作品。此外,我们的分析结果创建了一个用于刻画不同时空的艺术实践差异性的指标。
arXiv:2502.01889v1 Announce Type: 多领域交叉
摘要:最优传输(OT)理论旨在确定从空间X到空间Y的传输映射$T:X \to Y$,使源测度$P$传输到目标测度$Q$,同时最小化$x$与其像$T(\mathbf{x})$之间的成本$c(\mathbf{x}, T(\mathbf{x}))$。基于输入凸神经网络OT求解器,并结合位移稀疏映射的概念,我们引入了最小最大韦尔斯特拉斯形式的稀疏惩罚,促进位移向量$\Delta(\mathbf{x}) := T(\mathbf{x}) - \mathbf{x}$的稀疏性,并增强了该映射的可解释性。然而,增加稀疏性往往降低了可行性,导致$T_{\#}(P)$与目标测度的偏离更大。在低维设置中,我们提出了一种启发式框架来平衡稀疏性和可行性之间的权衡,在训练过程中动态调整稀疏性强度参数。在高维设置中,我们直接通过限制位移向量的维数来约束,即强制$\dim(\Delta(\mathbf{x})) \leq l$,其中对于$X \subseteq \mathbb{R}^d$,$l < d$。在满足此约束的映射中,我们旨在识别最可行的一个。这一目标可以通过适应我们低维启发式框架来有效实现,而无需进行维数降解。我们在合成sc-RNA和真实4i细胞扰动数据集上验证了该方法,表明其优于现有方法。