arXiv:2505.08995v1 通告类型: 新颖
摘要: 本文提出了一种层次化的多智能体强化学习框架,用于分析涉及异构智能体的模拟空中作战场景。目标是在预设的模拟中识别有效的行动方案,从而在低成本和安全的环境中探索现实世界中的防御场景。在此背景下应用深度强化学习提出了特定的挑战,例如复杂的飞行动力学、多智能体系统中状态和动作空间的指数级大小,以及将个体单位的实时控制与前瞻规划相结合的能力。为了解决这些挑战,决策过程被分成两个抽象层次:低层次策略控制个体单位,而高层次指挥策略发布与整体任务目标相一致的宏观命令。这种层次结构通过利用个体智能体的策略对称性并分离控制任务和命令任务来简化训练过程。低层次策略在逐渐增加复杂性的课程中对个体战斗控制进行训练。然后,在给定预训练控制策略的情况下,高层次指挥官对任务目标进行训练。实证验证确认了所提框架的优点。
arXiv:2505.08988v1 宣告类型: 新
摘要: 强化学习(RL)通常将智能体与环境的交互建模为马尔可夫决策过程(MDP),其中引导智能体行为的奖励总是可观察的。然而,在许多现实世界场景中,奖励并不是总是可观察的,这可以建模为监控马尔可夫决策过程(Mon-MDP)。针对Mon-MDP的先前工作主要限于简单的、基于表的案例,限制了其在实际问题中的应用。本文使用函数近似(FA)探索Mon-MDP,并研究了其中涉及的挑战。我们表明,结合函数近似与学习的奖励模型可以使智能体从具有可观测奖励的监控状态推广到具有不可观奖励的未监控环境状态。因此,我们展示了这样的推广在形式上定义为不可解的环境中实现了接近最优的策略。然而,我们识别出这种函数近似的一个关键局限性,其中智能体由于过度推广而错误地外推奖励,导致不良行为。为了减轻过度推广,我们提出了一种利用奖励不确定性谨慎的策略优化方法。本文为弥合Mon-MDP理论与实际应用之间的差距迈出了一步。
arXiv:2505.08905v1 通知类型: 新
摘要: 语言模型 (LMs) 不断进步,提高回应的质量和连贯性。考虑到互联网规模的训练数据集,LMs 在训练过程中可能已经遇到了用户可能会要求它们生成的所有类型的问题。已经构建了许多评估基准以评估模型质量、响应适宜性和推理能力。然而,构建这些基准所需的人力投入是有限的,并且正被被评估模型的数量和范围迅速超越。此外,为每个可能的研究领域手动构建一个基准是不切实际的。因此,我们提出了一种自动化构建基于文档群体的事实合成数据模型评估的方法。这项工作利用同样的LMs来自动评估特定领域的知识,只需输入锚定文档(例如,一本教科书)。这种合成数据基准方法与人工整理的问题高度一致,斯皮尔曼排名相关性为 0.96,基准评估皮尔逊精度相关性为 0.79。这一新颖的工具支持生成多项选择和开放式合成数据问题,以诊断LM的能力。我们将这种方法应用于评估一个最近的相关arXiv预印本上的模型性能,发现Gemma3模型表现出令人惊讶的强性能。
arXiv:2505.08896v1 声明类型: 新
摘要: 为交通信号灯控制(SI)开发自主车辆控制策略是一项具有挑战性的任务,因为其固有的复杂决策过程。本研究提出了一种基于深度强化学习(DRL)的SI纵向车辆控制策略。制定了一种综合的奖励函数,特别关注(i)基于车距间距的效率奖励,(ii)黄灯期间的决策标准,(iii)不对称的加速/减速响应,以及传统的安全和舒适标准。该奖励函数与两种流行的DRL算法,深度确定性策略梯度(DDPG)和软-演员评论家(SAC)相结合,可以处理加速/减速的连续动作空间。所提出的模型在真实世界领袖车辆(LV)轨迹与使用欧尔茨-乌伦贝克(OU)过程生成的模拟轨迹的组合上进行了训练。使用累积分布函数(CDF)图对所提出的模型的整体性能进行了测试,并与真实的轨迹数据进行了比较。结果显示,RL模型在不牺牲安全性的前提下,成功地保持了较低的车距间距(即更高的效率)和更小的切变。此外,为了评估所提出的模型的鲁棒性,我们根据车距跟随和交通信号遵守情况评估了模型在不同安全关键场景中的性能。DDPG和SAC模型都能够处理关键场景,而DDPG模型的动作轮廓更加平滑。总的来说,结果证实,基于DRL的SI纵向车辆控制策略可以有助于提高交通安全性、效率和舒适性。
arXiv:2505.07672v2 宣告类型: replace-cross
摘要: 我们介绍了OnPrem$.$LLM,这是一种基于Python的工具包,用于将大型语言模型(LLMs)应用于离线或受限环境中的敏感、非公开数据。该系统设计用于隐私保护用途,提供了文档处理和存储、检索增强生成(RAG)、信息提取、总结、分类以及最小配置下提示/输出处理的预构建管道。OnPrem$.$LLM 支持多个 LLM 后端——包括 llama$.$cpp、Ollama、vLLM 和 Hugging Face Transformers——支持量化模型、GPU 加速,并且可以无缝切换后端。尽管设计用于完全本地执行,但 OnPrem$.$LLM 也支持在允许的情况下与广泛的云 LLM 提供商集成,从而使性能与数据控制达到平衡。无代码 web 界面增强了非技术人员的访问性。
arXiv:2505.07450v2 宣告类型: replace-cross
摘要: 持续学习(CL)旨在学习一系列任务而不忘记先前的知识,但由于一个新的任务的梯度更新往往会覆盖之前学习的权重,这会导致灾难性遗忘(CF)。我们提出了一种称为原型增强超网络(PAH)的方法,其中单个超网络根据可学习的任务原型,在需要时动态生成任务特定的分类器头部。为了减轻遗忘问题,PAH 结合了交叉熵损失和双教师蒸馏损失,一个用于对齐 logits,另一个用于对齐原型,从而确保任务间特征表示的稳定性。在 Split-CIFAR100 和 TinyImageNet 上的评估表明,PAH 达到了最先进的性能,分别在只有 1.7% 和 4.4% 忘记的情况下实现了 74.5% 和 63.7% 的准确率,超过了先前的方法,无需存储样本或头部。
arXiv:2505.07261v2 宣告类型: 替换-交叉
摘要:基于扩散的方法在短时域任务中表现出强大的性能,但在复杂的长时间域设置中常常失效。我们追踪这种失败的原因在于高层(HL)子目标选择与低层(LL)轨迹生成之间的疏松耦合,这导致计划不一致并降低了性能。我们提出了联合层级扩散(CHD)框架,该框架在统一的扩散过程中联合建模高层子目标和低层轨迹。共享分类器将低层反馈传递到上游,使得在采样过程中子目标可以自我纠正。这种紧密的HL-LL耦合提高了轨迹的一致性,并使大规模长时间域扩散规划成为可能。在迷宫导航、桌面操作和家庭环境中的实验表明,CHD 在所有情况下都优于扁平式和层级式扩散基线。我们的网站是:https://sites.google.com/view/chd2025/home
arXiv:2505.06795v2 Announce Type: replace-cross
摘要:商品价格波动造成了经济挑战,需要进行准确的多时间尺度预测。预测铜和原油等商品的价格受到多种交互因素的影响(宏观经济、供需、地缘政治等)。当前的模型往往缺乏透明度,限制了其在战略上的应用。本文提出了一种正则化稀疏自编码器(RSAE),这是一种用于同时进行多时间尺度商品价格预测和发现可解释的潜在市场驱动因素的深度学习框架。RSAE 使用多变量时间序列预测多个时间尺度的价格(例如,1 天、1 周、1 个月等)。关键的是,其潜在向量 $\mathbf{z}$ 上的 L1 正则化($\|\mathbf{z}\|_1$)促进了稀疏性,在学习到的表示中促进了对市场动态的简明解释,这些表示代表了潜在的驱动因素(如需求、供给冲击)。借鉴基于能量模型和稀疏编码的方法,RSAE 在提高预测准确性的同时学习稀疏表示。在历史上铜和原油数据以及众多指标的评估中,我们的研究结果表明,RSAE 在多时间尺度预测准确性和通过可解释的潜在空间提供数据驱动的价格动态见解方面提供了竞争力,这是传统黑盒方法的一个关键优势。
arXiv:2505.06273v2 公告类型:替换交叉
摘要:为了设计与人类目标相一致的奖励,基于人类反馈的强化学习(RLHF)已经成为从人类偏好中学习奖励函数并通过强化学习算法优化策略的一种重要技术。然而,现有的RLHF方法常常错误地将轨迹解释为由最优策略生成的,导致不准确的似然估计和次优学习。受直接偏好优化框架的启发,该框架可以直接学习最优策略而无需显式的奖励,我们提出了策略标记的偏好学习(PPL),通过使用后悔来建模人类偏好,从而解决似然不匹配的问题,后悔反映了行为策略的信息。我们还提供了一种对比性的KL正则化,它是基于后悔原则推导出来的,以增强连续决策中的RLHF。实验结果在高维连续控制任务中展示了PPL在离线RLHF性能方面的显著改进及其在在线设置中的有效性。
arXiv:2505.06266v2 Announce Type: replace-cross
摘要:农业监测对于确保粮食安全、维持可持续农业实践、制定减少粮食短缺的政策以及管理温室气体排放至关重要。传统的过程物理模型往往针对特定情况设计和实现,其参数也可能高度不确定。相比之下,数据驱动的模型通常使用黑盒结构,而不明确建模不同生态变量之间的相互依赖性。因此,它们需要大量训练数据,且在数据分布变化以及观测变量不一致的情况下缺乏泛化能力。为了应对对更通用模型的需求,我们提出了一种知识导向的编码解码器模型,通过利用来自多个物理模型的底层过程知识预测关键农作物变量。该提出的方法还集成了语言模型来处理复杂和不一致的输入,并利用它来实现一个模型选择机制,以有选择地结合不同物理模型的知识。我们在多个站点预测碳和氮的通量方面的评估表明,在各种场景下,该提出的模型具有有效性及鲁棒性。