arXiv 论文列表

AdaptBot：结合语言模型、知识图谱和人类输入进行通用到具体的任务分解和知识精炼

作者: Shivam Singh, Karthik Swaminathan, Nabanita Dash, Ramandeep Singh, Snehasis Banerjee, Mohan Sridharan, Madhava Krishna

arXiv:2502.02067v1 宣布类型: 交叉摘要：协助人类的实体代理经常被要求在新的场景中完成一项新的任务。厨房中根据已知食谱准备特定菜肴的代理可能被要求准备新菜肴或在储物间执行清洁任务。由于缺乏足够资源，例如时间或标签示例，可能无法为这些新情况训练代理。大量语言模型（LLMs）在多领域积累了大量知识，能够预测这种新任务和场景的一系列抽象动作，尽管由于任务、代理或领域特定的约束，代理可能无法执行这个动作序列。我们的框架通过利用LLM提供的通用预测和在知识图谱（KG）中编码的先验领域特定知识来解决这些挑战，使代理能够迅速适应新任务和场景。机器人在必要时也会寻求并使用人类输入以完善其现有知识。基于对烹饪和清洁任务在仿真领域的实验评估，我们证明了LLM、KG和人类输入之间的互动相比于仅使用LLM输出带来了显著的性能提升。

发布时间: 2/5/2025

查看原文

CASIM: 具体意识语义注入用于文本到运动生成

作者: Che-Jui Chang, Qingze Tony Liu, Honglu Zhou, Vladimir Pavlovic, Mubbasir Kapadia

arXiv:2502.02063v1 类型: cross 摘要: 生成建模和令牌化领域的近期进展推动了文本到运动生成的显著进步，提高了生成运动的质量和逼真度。然而，有效地利用文本信息进行条件运动生成仍然是一个开放的挑战。我们观察到，当前的方法主要依赖固定长度的文本嵌入（如CLIP）进行全局语义注入，难以捕捉人类运动的复合性质，导致生成的运动质量不佳和可控性差。为了解决这一局限性，我们提出了复合感知语义注射机制（CASIM），该机制包括一个复合感知语义编码器和一个文本-运动对齐器，用于学习文本和运动令牌之间的动态对应关系。值得注意的是，CASIM 对模型和表示形式是通用的，可以与自回归和基于扩散的方法方便地集成。在HumanML3D和KIT基准测试上进行的实验表明，CASIM 一致地提高了运动质量、文本-运动对齐和检索得分，超过了最先进的方法。进一步的定性分析还突出了我们复合感知方法的优势，这种方法比固定长度语义注入在从文本提示进行精确的运动控制和对未见过的文本输入有更好的泛化能力方面更为优越。

发布时间: 2/5/2025

查看原文

RAPID: 基于逆强化学习的稳健灵活无人机视觉导航规划器

作者: Minwoo Kim, Geunsik Bae, Jinwoo Lee, Woojae Shin, Changseung Kim, Myong-Yol Choi, Heejung Shin, Hyondong Oh

arXiv:2502.02054v1 类型: cross 摘要：本文介绍了一种基于学习的视觉规划器，用于在复杂环境中进行敏捷无人机飞行。所提出的方法能够在毫秒级生成无碰撞航点，使无人机能够在复杂环境中执行敏捷机动而无需单独构建感知、建图和规划模块。基于学习的方法，如行为克隆（BC）和强化学习（RL），在视觉导航方面显示出了有希望的性能，但仍面临固有的局限性。行为克隆由于专家模仿有限，容易累积错误，而强化学习则在奖励函数设计和样本效率方面存在困难。为解决这些局限性，本文提出了一种基于逆强化学习（IRL）的框架，用于高速视觉导航。通过利用IRL，可以减少与其他仿真环境的交互次数，并提高处理高维空间的能力，同时保持RL策略的鲁棒性。基于运动原语的路径规划算法收集了来自多种环境的带有优先级地图数据的专家数据集，确保了场景的全面覆盖。通过利用来自代理与仿真环境交互而收集的获得的专家数据集和学习者数据集，实现了多样化状态下鲁棒的奖励函数和策略。尽管该方法仅在仿真环境中进行训练，但可以在无需额外训练或调优的情况下直接应用于现实场景。提出的方例方法在仿真环境和现实环境中均进行了验证，包括森林和各种结构场景。经过训练的策略在实际飞行实验中实现了平均速度7 m/s和最高速度8.8 m/s。据我们所知，这是首次成功将IRL框架应用于无人机高速视觉导航的工作。

发布时间: 2/5/2025

查看原文

M2R2: 多率残差混合的高效 Transformer 推断

作者: Nikhil Bhendawade, Mahyar Najibi, Devang Naik, Irina Belousova

arXiv:2502.02040v1 交叉类型: cross 摘要: 残差变换增强了大型语言模型（LLMs）的表示深度和表达能力。然而，在自回归生成过程中在整个标记上应用静态残差变换会导致推理效率和生成保真度之间的次优权衡。现有方法，包括早期退出、跳过解码和深度混合，通过根据标记复杂度调节残差变换来解决这个问题。尽管如此，这些方法主要关注通过模型层遍历的标记距离，而忽视了残差演变的潜在速度。我们引入了多速率残差混合（M2R2）框架，动态调节残差速度以提高早期对齐，从而提高推理效率。在如Koala、Self-Instruct、WizardLM和MT-Bench等以推理为导向的任务上，M2R2超越了基于距离的策略，平衡了生成质量和加速。在自我推测解码设置中，M2R2在MT-Bench上的加速比达到了2.8倍，超越了诸如2模型推测解码、Medusa、Ahead-of-Time解码和DEED等方法。在专家混合（MoE）架构中，将早期残差对齐与先加载到高带宽内存（HBM）中的专家切换结合，加速解码，减少了专家切换瓶颈，实现了2.9倍的加速，使其在资源受限环境中非常有效。

发布时间: 2/5/2025

查看原文

从人类的手到 robotic 假肢：一项关于远程操作中运动技能体现的研究

作者: Haoyi Shi, Mingxi Su, Ted Morris, Vassilios Morellas, Nikolaos Papanikolopoulos

arXiv:2502.02036v1 控制类型: 横跨领域摘要：本文介绍了一种使用人类手臂手势控制冗余自由度机器人 manipulator 的远程操控系统。我们提出了一种基于 GRU 的变分自动编码器来学习 manipulator 配置空间的潜在表示，捕捉其复杂的关节运动学。一个全连接的神经网络将人类手臂配置映射到这个潜在空间，从而使系统能够通过 VAE 解码器实时模仿和生成相应的 manipulator 轨道。所提出的方法在远程操控 manipulator 方面显示出积极的结果，能够从训练过程中不存在的人类特征中生成新的 manipulator 配置。

发布时间: 2/5/2025

查看原文

异方差双Bayesian弹性网

作者: Masanari Kimura

arXiv:2502.02032v1 宣告类型: cross 摘要: 在许多实际应用中，回归模型用于揭示预测变量与响应变量之间的关系，但常假设不变误差方差的常见假设经常被违反。在高维设置中，当预测变量的数量超过样本大小时，这个问题进一步加剧，需要正则化以实现有效的估计和变量选择。为了解决这个问题，我们提出了Heteroscedastic Double Bayesian Elastic Net (HDBEN) 这一新的框架，该框架使用包含 $\ell_1$ 和 $\ell_2$ 罚项的分层贝叶斯先验同时建模均值和对数方差。我们的方法同时在回归系数和方差参数中诱导稀疏性和分组，从而捕获数据中的复杂方差结构。理论结果表明，在较轻的条件下，所提出的HDBEN实现了后验浓缩、变量选择一致性以及渐近正态性，这证明了其行为的有效性。进一步的模拟研究表明，在异方差性和高维性场景中，HDBEN比现有方法表现出更好的性能。

发布时间: 2/5/2025

查看原文

细调语言模型以进行食谱生成：一种比较分析和基准研究

作者: Anneketh Vij, Changhao Liu, Rahul Anil Nair, Theo Ho, Edward Shi, Ayan Bhowmick

arXiv:2502.02028v1 交叉公告类型摘要：本文研究了通过微调各种非常小的语言模型来生成食谱任务，重点关注开发稳健的评估指标，并在不同语言模型之间比较开放性任务——食谱生成的表现。本研究进行了广泛的实验，涉及多种模型架构，从T5-small（Raffel等人，2023年）和SmolLM-135M（Allal等人，2024年），到Phi-2（Research，2023年）。实验使用了传统NLP指标和自定义领域特定评估指标。我们的新颖评估框架包括针对内容质量的食谱特定指标，并引入了过敏原替换的方法。结果表明，尽管在标准指标上较大的模型通常表现更好，但在考虑领域特定指标时，模型大小与食谱质量之间的关系更加复杂。我们发现，尽管SmolLM-360M和SmolLM-1.7B的尺寸不同，它们在性能上表现出色，而Phi-2尽管参数更多，在食谱生成方面却显示出局限性。我们全面的评估框架和过敏原替换系统为未来在食谱生成和更广泛需要领域专业知识和安全考虑的NLG任务中提供了有价值的见解。

发布时间: 2/5/2025

查看原文

从雾到失败：去雾如何损害清晰图像目标检测

作者: Ashutosh Kumar, Aman Chadha

arXiv:2502.02027v1 类型:跨领域摘要：这项研究探讨了将基于人类视觉线索的去雾技术整合到目标检测中所面临的挑战，考虑到人类感知的选拔性。虽然人类视觉能够动态适应环境条件，但计算去雾并不总是均匀地提升检测效果。我们提出了一种多阶段框架，其中轻量级检测器识别感兴趣区域（RoIs），然后通过基于空间注意力的去雾处理，最后由较重的模型进行最终检测。尽管在雾天条件下效果显著，但这种方法出人意料地在清晰图像上降低了性能。我们分析了这一现象，研究了可能的原因，并提出了平衡增强和检测的设计混合管道的见解。我们的研究结果强调了选择性预处理的必要性，并挑战了级联变换具有普适益处的假设。

发布时间: 2/5/2025

查看原文

多域图基础模型：通过拓扑对齐实现 robust 知识迁移

作者: Shuo Wang, Bokui Wang, Zhixiang Shen, Boyan Deng, Zhao Kang

arXiv:2502.02017v1 类型: cross 摘要: 近年来，计算机视觉(CV)和自然语言处理(NLP)的最新进展激发了研究人员开发泛用图基础模型的热情，通过在多个领域进行预训练。然而，不同领域中的图拓扑结构存在显著差异，这是一个基本的挑战。此外，现实世界的图往往是稀疏的，并且容易受到噪声连接和 adversarial 攻击的影响。为了解决这些问题，我们提出了多领域图基础模型(Multi-Domain Graph Foundation Model, MDGFM)，这是一种统一框架，它通过整合和利用跨领域的拓扑信息来促进稳健的知识迁移。MDGFM 通过适应性地平衡特征和拓扑结构，并改进原始图以消除噪声和对齐拓扑结构，从而连接不同的领域。为了进一步增强知识迁移，我们引入了一种高效的提示调优方法。通过对齐拓扑结构，MDGFM 不仅提高了多领域预训练的效果，还使知识能够稳健地转移到未见过的领域。理论分析为 MDGFM 的有效性和领域泛化能力提供了保证。在同质性和异质性图数据集上的广泛实验验证了我们方法的稳健性和有效性。

发布时间: 2/5/2025

查看原文

一种用于材料生成的周期性贝叶斯流

作者: Hanlin Wu, Yuxuan Song, Jingjing Gong, Ziyao Cao, Yawen Ouyang, Jianbing Zhang, Hao Zhou, Wei-Ying Ma, Jingjing Liu

arXiv:2502.02016v1 宣告类型: cross 摘要: 生成晶格数据分布是一个重要但具有挑战性的任务，这是因为晶体具有独特的周期物理对称性。基于扩散的方法在建模晶格分布方面早期显示出潜在的可行性。最近，引入了贝叶斯流网络来聚合噪声的潜在变量，从而形成一个方差减少的参数空间，该参数空间已被证明适用于具有结构约束的欧几里得数据分布建模（Song等，2023）。受到这一进展的启发，我们致力于探索其在建模位于非欧几里得流形上的变量（例如，处于晶体结构中的变量）中的潜力，从而克服存在的理论难题。我们提出了CrysBFN，这是一种新颖的晶体生成方法，通过提出周期性贝叶斯流来实现，本质上与原始基于高斯的BFN不同，显示出非单调熵动力学。为成功实现周期性贝叶斯流的概念，CrysBFN 结合了一种新的熵条件机制，并在与时间条件机制的对比中展示了其重要性。在晶体从头生成和晶体结构预测任务上的广泛实验证明了CrysBFN 的优越性，且在所有基准测试中均能实现新的最先进水平。令人惊讶的是，我们发现CrysBFN 在采样效率方面取得了显著改进，例如，在MP-20数据集上与之前的基于扩散的方法相比，10次迭代的速度提高了约100倍（10步vs. 2000步网络前向）。代码可在https://github.com/wu-han-lin/CrysBFN获取。

发布时间: 2/5/2025

查看原文