arXiv 论文列表

模型预测控制与强化学习的合成：综述与分类

作者: Rudolf Reiter, Jasper Hoffmann, Dirk Reinhardt, Florian Messerer, Katrin Baumg\"artner, Shamburaj Sawant, Joschka Boedecker, Moritz Diehl, Sebastien Gros

arXiv:2502.02133v1 控制类型: 交叉摘要：在MPC和RL领域探讨了两种成功的马尔可夫决策过程控制技术。这两种方法均源自相近的基础原则，并且在诸如机器人技术、过程控制、能源系统和自动驾驶等实际应用中广泛使用。尽管它们具有相似之处，但MPC和RL仍遵循各自不同的范式，这些范式分别源自不同社区和不同的需求。种种技术差异，尤其是环境模型作为算法一部分的角色，导致了几乎互补优势的研究方法。由于它们提供了相互垂直的优点，最近关于结合方法的研究兴趣显著增加，从而产生了一个庞大且不断增长的概念库，利用MPC和RL进行复杂想法的探索。本文阐明了这些差异、相似之处以及使不同结合算法得以可能的基础原理，并据此对现有工作进行分类。特别地，我们以灵活的演员-评论家RL方法为基础进行分类，并探讨MPC的在线优化方法如何提高整个闭环控制政策的整体性能。

发布时间: 2/5/2025

查看原文

优化算法中的记忆如何隐式修改损失函数

作者: Matias D. Cattaneo, Boris Shigida

arXiv:2502.02132v1 宣布类型: cross 摘要: 在现代深度学习中使用的优化方法中，每次更新都依赖于之前的迭代历史，通常称为内存，这种依赖性随着时间的推移迅速衰减。例如，具有动量的梯度下降具有指数衰减的内存，因为通过指数平均过去的梯度来实现。我们介绍了一种通用技术，用于识别一个无记忆算法，它近似于具有内存的优化算法。这对于通过将更新中的所有过去迭代替换为当前迭代，然后添加一个来自内存的修正项（这也是当前迭代的函数）来获得。这种修正项可以解释为对损失的扰动，这种扰动的性质可以告知内存如何隐式地（反）正则化优化动力学。作为我们理论的应用，我们发现Lion并不像AdamW那样具有由内存引起的隐式反正则化，从而为Lion最近记录的更好泛化性能提供了一个基于理论的解释。

发布时间: 2/5/2025

查看原文

基于因果导向的深度学习以实现可解释和可泛化的小 Critical Care 中 outcome 预测

作者: Yuxiao Cheng, Xinxin Song, Ziqian Wang, Qin Zhong, Kunlun He, Jinli Suo

arXiv:2502.02109v1 通知类型: 交叉摘要: 近期深度学习(DL)的进展推动了高性能早期预警评分(EWS)系统的开发，用于预测急性肾损伤、急性心肌梗死或循环衰竭等临床恶化情况。DL模型在各种任务中证明了强大的工具，但缺乏可解释性和有限的泛化能力，阻碍了它们的临床应用。为了开发适用于多种结果的实用EWS系统，我们提出了一种因果缓解解释性早期预测模型，该模型利用因果发现识别预测背后的因果关系，从而具备两大独特优势：在应用于不熟悉的环境时，展示明确的预测解释能力。得益于这些特征，我们的方法在6种不同的重要恶化情况上取得了优越的准确性，并在不同患者群体中展现了更好的泛化能力，与各种基线算法相比。此外，我们还提供了明确的因果路径，作为辅助临床诊断和潜在干预措施的参考。所提出的方法增强了深度学习在各种医疗场景中的实际应用。

发布时间: 2/5/2025

查看原文

神经网络学习距离度量

作者: Alan Oursland

arXiv:2502.02103v1 类型: cross 摘要: 神经网络可能会自然倾向于基于距离的表示，其中较小的激活表明更接近于所学习的原型。这与依赖于激活幅度的强度基方法形成对比。为了测试这一假设，我们对六种受约束的MNIST架构进行了实验，这些架构被限制为学习距离或强度表示。我们的结果揭示了底层表示对模型性能的影响。我们开发了一个新的几何框架来解释这些发现，并引入了基于马氏距离方程的新架构OffsetL2，以进一步验证该框架。这项工作突显了在神经网络设计中考虑基于距离的学习的重要性。

发布时间: 2/5/2025

查看原文

文本到视频生成的迭代偏好优化

作者: Xiaomeng Yang, Zhiyu Tan, Xuecheng Nie, Hao Li

arXiv:2502.02088v1 交叉类型：cross 摘要：随着网络升级和模型规模扩大，视频基础模型已经取得了显著的进步。然而，由于生成质量不理想，它们依旧难以满足应用要求。为了解决这一问题，本文提出从后训练视角将视频基础模型与人类偏好对齐。因此，我们引入了一种迭代偏好优化策略，通过纳入人类反馈来提升生成视频的质量。具体而言，IPO 利用了一种批评模型，该模型可以像直接偏好优化那样进行成对排序，或者像坎布纳姆-特维斯基优化那样进行点式评分。借助这种方法，IPO 通过偏好反馈信号的指导优化视频基础模型，从而提高生成视频在主题一致性、运动流畅性和审美质量等方面的质量。此外，IPO 将批评模型与多模态大规模语言模型结合起来，使其能够自动分配偏好标签，无需重新训练或重新标注。通过这种方式，IPO 可以在迭代过程中高效地进行多轮偏好优化，而无需繁琐的手动标注。全面的实验表明，提出的IPO可以有效提高预训练模型的生成视频质量，并帮助一个只有2亿参数的模型超越一个拥有5亿参数的模型。此外，IPO 在 VBench 基准上实现了新的最先进技术指标。我们将发布我们的源代码、模型及数据集，以促进未来的研究和应用。

发布时间: 2/5/2025

查看原文

Dueling_bandits的在线聚类

作者: Zhiyong Wang, Jiahang Sun, Mingze Kong, Jize Xie, Qinghua Hu, John C. S. Lui, Zhongxiang Dai

arXiv:2502.02079v1 答题类型: 横跨多个领域摘要: 上下文多臂老虎机（MAB）是一种广泛应用于需要在不确定性条件下进行顺序决策的问题的框架，如推荐系统。在涉及大量用户的应用中，通过促进多个用户的协作，可以显著提高上下文多臂老虎机的性能。这一点已经通过群集多臂老虎机（CB）方法实现，这些方法会自适应地将用户分组到不同的群集，并通过允许同一群集中的用户共享数据来实现协作。然而，经典的CB算法通常依赖于数值奖励反馈，在某些实际应用中这可能是不切实际的。例如，在推荐系统中，从推荐项目的成对偏好反馈中获得更现实和可靠的偏好反馈比获得绝对奖励更实际。为了解决这一限制，我们引入了“群集对决多臂老虎机算法”的第一个实例，以基于偏好反馈实现协作决策。我们提出了两种新的算法：（1）线性对决多臂老虎机群集（COLDB），它将用户奖励函数建模为上下文向量的线性函数；（2）神经网络对决多臂老虎机群集（CONDB），它使用神经网络来建模复杂的非线性用户奖励函数。这两种算法都得到了严格的理论分析支持，证明用户协作可以提高遗憾界。在合成数据集和真实世界数据集上的广泛实证评估进一步证实了我们方法的有效性，确立了它们在涉及具有偏好反馈的多个用户的实际应用中的潜力。

发布时间: 2/5/2025

查看原文

ASCenD-BDS：可适应、随机化且上下文意识的偏见、歧视和刻板印象检测框架

作者: Rajiv Bahl, Venkatesan N, Parimal Aglawe, Aastha Sarasapalli, Bhavya Kancharla, Chaitanya kolukuluri, Harish Mohite, Japneet Hora, Kiran Kakollu, Rahul Diman, Shubham Kapale, Sri Bhagya Kathula, Vamsikrishna Motru, Yogeshwar Reddy

arXiv:2502.02072v1 声明类型：交叉摘要：大型语言模型（LLMs）的快速进化已经改变了自然语言处理，但这也引发了关于部署和使用这些模型时固有的偏见在多种语言和社会文化背景下带来的关键担忧。本文提出了一种名为ASCenD BDS（适配性、随机性和情境感知的偏见、歧视和刻板印象检测框架）的框架。该框架提供了一种在性别、种姓、年龄、残疾、社会经济地位、语言变体等各种类别中检测偏见、歧视和刻板印象的方法，使用的是适配性、随机性和情境感知的方法。当前的框架超越了现有框架的局限性，包括适应性、随机性和情境感知的特征。情境感知可以为任何国家、文化或亚文化自定义，例如组织的独特文化。在本文中，该框架在印度的情境中得到了验证。内容基于2011年印度人口普查进行了分类。通过类别、子类别、STEM、X因素、同义词的框架，实现适应性、随机性和情境感知的特征。该框架在第3节中详细描述。总体而言，由圣狐咨询有限公司的咨询团队开发了800多个STEM，10个类别，31个独特的子类别。作为产品开发的一部分，该概念在SFCLabs进行了测试。

发布时间: 2/5/2025

查看原文

AdaptBot：结合大型语言模型、知识图谱和人类输入的一般到特定任务分解与知识精炼

作者: Shivam Singh, Karthik Swaminathan, Nabanita Dash, Ramandeep Singh, Snehasis Banerjee, Mohan Sridharan, Madhava Krishna

arXiv:2502.02067v1 体现类型：跨领域摘要：体态化代理协助人类时，常被要求在一个新的场景中完成新的任务。例如，基于已知食谱在厨房中准备某种菜肴的代理可能会被要求准备新的菜肴，或者执行储藏室的清洁任务。在这种情况下可能缺乏足够的资源，如时间或带标签的数据，以对代理进行这些新情景的训练。大语言模型（LLMs）在跨多种领域接受大量知识训练后，能够预测此类新任务和场景的一系列抽象动作，虽然代理可能由于任务、代理或领域特定的约束无法执行这些动作序列。我们的框架通过利用LLM提供的通用预测以及在知识图谱（KG）中编码的先验领域特定知识，解决了这些挑战，使代理能够快速适应新的任务和场景。该机器人还根据需要请求并利用人的输入来完善其现有知识。基于在烹饪和清洁任务上的模拟域实验评估，我们证明了LLM、KG和人类输入之间的相互作用相比于仅使用LLM输出能够带来显著的性能提升。

发布时间: 2/5/2025

查看原文

CASIM: 综合意识语义注入for 文本到动作生成

作者: Che-Jui Chang, Qingze Tony Liu, Honglu Zhou, Vladimir Pavlovic, Mubbasir Kapadia

arXiv:2502.02063v1 类别: cross 摘要: 生成建模和标记的最近 advances 在驱动从文本到动作生成的重大进展中发挥了重要作用，这提高了生成动作的质量和真实性。然而，有效地利用文本信息进行条件动作生成仍然是一个开放的挑战。我们观察到，当前的方法主要依赖于固定长度的文本嵌入（如CLIP）进行全局语义注入，难以捕捉人类动作的复合性质，导致生成动作的质量和可控性不足。为了解决这一限制，我们提出了复合感知语义注入机制（CASIM），该机制包括一个复合感知语义编码器和一个文本-动作对齐器，用于学习文本和动作标记之间的动态对应关系。值得注意的是，CASIM 不依赖于特定的模型和表示，可以与自回归方法和基于扩散的方法轻松集成。在 HumanML3D 和 KIT 基准上的实验表明，CASIM 在多种最先进的方法中一致地提高了动作质量、文本-动作对齐和检索分数。进一步的定性分析还强调了我们的复合感知方法优于固定长度语义注入的优势，使得从文本提示进行精确动作控制以及对未见过的文本输入具有更强的泛化能力。

发布时间: 2/5/2025

查看原文

基于视觉的无人机导航中快速稳健且灵活的规划器 using 逆强化学习

作者: Minwoo Kim, Geunsik Bae, Jinwoo Lee, Woojae Shin, Changseung Kim, Myong-Yol Choi, Heejung Shin, Hyondong Oh

arXiv:2502.02054v1 agility 摘要：本文介绍了一种基于学习的视觉规划器，用于在复杂环境中实现敏捷无人机飞行。提出的规划器可以在毫秒内生成无碰撞航点，使无人机能够在复杂环境中进行敏捷机动，而无需构建独立的感知、建图和规划模块。基于学习的方法，如行为克隆(BC)和强化学习(RL)，在视觉导航中显示出良好的性能，但仍面临固有的限制。行为克隆由于专家模仿有限而导致累积误差，而强化学习在奖励函数设计和样本效率方面存在困难。为了克服这些限制，本文提出了一种基于逆强化学习(IRL)的框架，用于高速视觉导航。通过利用逆强化学习，可以减少与模拟环境的交互次数，并在保持RL策略鲁棒性的前提下，提高处理高维空间的能力。基于运动原型的路径规划算法从多种环境收集专家数据集，并附带优先级地图数据，确保全面的场景覆盖。利用来自代理与模拟环境互动中收集到的专家数据集和学习者数据集，学习出鲁棒的奖励函数和策略。尽管所提出的方法仅在模拟环境中进行训练，但可以直接应用于实际场景，无需额外的训练或调整。所提出的方法在模拟和实际场景中，包括森林和各种结构中均得到了验证。经过训练的策略在实际飞行实验中的平均速度为7 m/s，最大速度为8.8 m/s。据我们所知，这是首次成功将逆强化学习框架应用于高速视觉导航无人机工作的研究。

发布时间: 2/5/2025

查看原文