LLM2D

arXiv 论文列表

arXiv:2502.13769v1 宣告类型:新 摘 要:在排名聚合问题(RAP)中,解决方案通常是泛化一组输入排序的共识排名。这类问题的不同变种不仅在输入和输出的排名类型上有所不同,还在用于评估所需输出排名质量的目标函数上有所不同。相比之下,在一些机器学习任务(如子组发现)或多模态优化任务中,人们更关注获取多个模型/结果以解释输入数据中的多样性或搜索景观中的多样性。因此,在本文中,我们提议将一组排名作为RAP的解决方案,以更好地解释输入排序中表达的偏好。我们通过Optimal Bucket Order Problem(OBOP)来举例说明这一提议,OBOP是一个RAP问题,旨在找到一个泛化一组输入排名(包含并列情况)的共识排名。为了应对这一挑战,我们引入了Optimal Set of Bucket Orders Problem(OSBOP),这是一种OBOP的推广,其目标是生成一组排名,而不仅仅是一个单一的排名。实验结果被呈现以说明这一提议,展示了通过提供一组共识排名,方案的适应度显著提高,而不会失去可理解性。
发布时间: 2/20/2025
查看原文
arXiv:2502.13743v1 通告类型: 新增 摘要: 在人工智能领域,一个重要的公开问题是,是什么简单的且自然的原理能够让机器通过具体化符号进行有意义的逻辑推理。本文探讨了一种结合概率推理和预测性符号推理的新方法。我们回到了贝叶斯网络出现前的全联合分布推理时代。然后我们讨论了在命题逻辑中全联合分布的指数大小,在谓词逻辑中为无穷大小,应该简单地从数据的线性大小的全联合分布中得出。我们表明,同样的过程不仅足够用来泛化谓词逻辑的逻辑后果关系,还能够提供一个新的视角来重新思考已知的限制,如谓词逻辑的不可判定性、符号接地问题和爆炸原理。本文的理论工作在附带的证明中完全展现了其可重复性。
发布时间: 2/20/2025
查看原文
作者: Jessica Lally, Milad Kazemi, Nicola Paoletti
arXiv:2502.13731v1 宣告类型: 新 摘要: 本文解决了现有马尔可夫决策过程(MDP)反事实推理方法的一个关键局限性。当前的方法假设了特定的因果模型以使反事实可识别。然而,通常存在多种与MDP的观测分布和干预分布相一致的因果模型,每种模型都会产生不同的反事实分布,因此固定特定的因果模型会限制反事实推理的有效性(及其有用性)。我们提出了一种新颖的非参数方法,用于在所有兼容的因果模型上计算反事实转换概率的紧界。不同于以前的方法需要解决近乎禁止的优化问题(变量数量随MDP规模呈指数增长),我们的方法提供了这些界的确切表达式,使计算对于非平凡的MDP变得非常高效且可扩展。一旦构造了这种区间反事实MDP,我们的方法就能识别出相对于不确定的区间MDP概率优化最坏情况奖励的鲁棒反事实策略。我们通过对多种案例研究进行评估,展示了与现有方法相比改进的鲁棒性。
发布时间: 2/20/2025
查看原文
作者: Sylvia S. Kerkhove, Natasha Alechina, Mehdi Dastani
arXiv:2502.13701v1 通知类型: 新 摘要:因果关系在日常过程、人类推理和人工智能中起着重要作用。然而,在多智能体的战略环境中关于因果关系的研究并不多。在本文中,我们介绍了一种系统的方法来构建给定结构因果模型的多智能体系统模型,表示为并发游戏结构。在所获得的所谓的因果并发游戏结构中,转换对应于对给定因果模型中智能体变量的干预。我们使用 Halpern 和 Pearl 的因果框架来确定特定智能体变量值对其他变量的影响。因果并发游戏结构使我们能够分析和推理智能体战略决策的因果效应。我们正式研究了因果并发游戏结构与原始结构因果模型之间的关系。
发布时间: 2/20/2025
查看原文
作者: Yan Yu, Wengang Zhou, Yaodong Yang, Wanxuan Lu, Yingyan Hou, Houqiang Li
arXiv:2502.13569v1 宣布类型: 新版 摘要: 多任务强化学习利用单一策略完成各种任务,旨在发展出能够在不同场景中泛化的智能体。鉴于任务之间的共性,智能体的学习效率可以通过参数共享得以提升。现有方法通常使用路由网络为每个任务生成特定的路径,并重组一组模块为多种模型以同时完成多个任务。然而,由于任务之间的固有差异,根据任务难度分配资源至关重要,这受到模型结构的约束。为此,我们提出了一种基于遗传算法的模型进化框架(MEGA),该框架能够在训练过程中根据任务难度使模型进化。当当前模型对于某些任务不足时,框架将自动引入额外模块,增强模型的能力。此外,为了适应我们的模型进化框架,我们引入了一种基因型模块级模型,使用二进制序列作为基因型策略进行模型重组,并利用非梯度遗传算法优化这些基因型策略。与具有固定输出维度的路由网络不同,我们的方法允许基因型策略长度的动态调整,使其能够容纳具有不同模块数量的模型。我们在Meta-World基准上的各类机器人操作任务上进行了实验。我们的最新性能证明了MEGA框架的有效性。我们将发布我们的源代码。
发布时间: 2/20/2025
查看原文
作者: Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu
arXiv:2502.13516v1 通知类型: 新 摘要: 最近,增强大型语言模型(LLMs)的数值和逻辑推理能力已成为研究热点。现有方法面临一些限制:推理阶段的技术(例如,链式思维)依赖于提示的选择和预训练的知识;基于句子的监督微调(SFT)和直接偏好优化(DPO)在步骤级的数学正确性方面遇到困难,并依赖于更强模型的蒸馏或人工标注;而强化学习(RL)方法会产生高GPU内存成本和不稳定的训练。为了解决这些问题,我们提出了一种结合过程偏好学习(动态价值边际)的自我训练框架(SPPD)。SPPD 利用基于过程的状态转换马尔可夫决策过程(MDP)和贝尔曼优化方程来在步骤级偏好优化中推导出动态价值边际,这种方法通过基于树的自我采样来利用模型响应,而无需从其他模型进行任何蒸馏。此外,我们理论证明,在奖励约束下,SPPD 等同于在线策略梯度方法。在7B规模模型上的实验显示,SPPD 在领域内和领域外的数学标准测验中都展现出优越的性能。我们已开源我们的代码,链接为 \href{https://anonymous.4open.science/r/SSDPO-D-DCDD}{https://anonymous.4open.science/r/SPPD-DCDD}。
发布时间: 2/20/2025
查看原文
作者: Sunder Ali Khowaja, Kapal Dev, Muhammad Salman Pathan, Engin Zeydan, Merouane Debbah
arXiv:2502.13476v1 通告类型: 新 摘要: 我们正处于一个变革的时代,特别是在人工智能(AI),尤其是基础模型方面,取得了不断的进步,并且常常成为新闻的焦点。AI 已经成为许多依赖自动化服务交付的应用程序的重要组成部分,其中之一就是关键任务的公共安全应用程序。以 AI 为导向的关键任务应用程序的问题在于带有在环人类系统的分析和在保持态势感知的同时适应动态条件的能力不足。近期,兼具代理能力的人工智能(Agentic AI,AAI)引起了广泛关注,因为其能够通过上下文视角分析文本数据并迅速适应变化。在此背景下,本文提出了一种针对关键任务应用程序的 AAI 框架。我们提出了一种具有多层架构的新型框架,以实现 AAI。我们还详细介绍了 AAI 层的实现,以填补网络基础设施与关键任务应用程序之间的差距。初步分析表明,与没有 AAI 的情况相比,AAI 将初始响应时间平均缩短了 5.6 分钟,警报生成时间平均缩短了 15.6 秒,资源分配改善了最多 13.4%。我们还展示了 AAI 方法将并发操作数量提高了 40%,从而将恢复时间缩短了最多 5.2 分钟。最后,我们强调了在实施 AAI 框架时需要考虑的一些问题和挑战。
发布时间: 2/20/2025
查看原文
作者: Hao Ma, Shijie Wang, Zhiqiang Pu, Siyao Zhao, Xiaolin Ai
arXiv:2502.13430v1 通知类型: 新 摘要: 引导多智能体强化学习的策略与人类常识保持一致是一个困难的问题,主要是由于将常识建模为奖励的复杂性,特别是在复杂且长期的任务中。近期的研究表明,基于潜在奖励的奖励塑造方法可以增强策略的一致性。然而,现有的方法主要依赖专家设计基于规则的奖励,这往往耗时且缺乏对常识高层次语义的理解。为了解决这个问题,我们提出了一种分层的基于视觉的奖励塑造方法。在底层,一个视觉-语言模型(VLM)作为通用的潜在函数,通过其内在的语义理解,引导策略与人类常识保持一致。为了帮助策略适应长期任务中的不确定性和变化,顶层特征是一个基于视觉大型语言模型(vLLM)的自适应技能选择模块。该模块利用指令、视频重播和训练记录,动态从预先设计的池中选择合适的潜在函数。此外,我们的方法在理论上证明能够保持最优策略。在Google Research Football环境中的广泛实验表明,我们的方法不仅能提高胜率,还能有效地将策略与人类常识保持一致。
发布时间: 2/20/2025
查看原文
arXiv:2502.13392v1 宣布类型: 新 摘要: Waymo等先锋公司已在多个美国城市部署了机器人出租车服务。这些机器人出租车是电动车辆,其运营需要在随机环境中对行程匹配、车辆重新定位和充电调度进行联合优化。我们将配备机器人出租车的叫车系统运营建模为一个离散时间、平均回报马尔可夫决策过程,具有无限视野。随着车队规模的扩大,调度变得具有挑战性,因为系统状态集合和车队调度动作集随着车辆数量呈指数增长。为了解决这一问题,我们引入了一种可扩展的深度强化学习算法,称为原子近似策略优化(Atomic-PPO),该算法通过原子动作分解减少了动作空间。我们使用实际的纽约市有偿车辆数据评估了该算法,并通过调度策略相对于基于连续流的回报上限实现的长期平均回报来衡量性能。我们的实验证明,我们的Atomic-PPO在基准算法中表现出更优异的性能。此外,我们进行了广泛的数值实验,以分析充电设施的有效分配,并评估车辆续驶里程和充电速度对车队性能的影响。
发布时间: 2/20/2025
查看原文
作者: Kongcheng Zhang, Qi Yao, Baisheng Lai, Jiaxing Huang, Wenkai Fang, Dacheng Tao, Mingli Song, Shunyu Liu
arXiv:2502.13389v1 公告类型: 新 摘要: 在这项工作中,我们提出了强化功能令牌调谐(RFTT),这是一种新颖的强化微调框架,赋予大型语言模型(LLMs)自我对弈学习推理的能力。与以往基于提示的推理努力不同,RFTT将一组可学习的功能令牌(例如, , )直接嵌入到模型词汇中,从而能够构造具有多样的人类推理行为的链式思考。具体而言,RFTT包含两个阶段:(1) 监督微调通过基于提示的树搜索获得带有功能令牌的自我生成训练数据,这使模型能够学习这些令牌以进行推理;和(2) 在线强化学习进一步允许模型通过功能令牌采样探索不同的推理路径,而无需依赖提示,从而促进功能推理的有效自我改善。广泛实验表明,RFTT在数学基准测试上的优越性,显著提升了Qwen-2.5-7B-Instruct (从70.6%到79.8%)和LLaMA-3.1-8B-Instruct (从32.2%到60.2%)在MATH数据集上的表现。此外,RFTT在推理时进行的更多搜索展开次数会持续提高性能。我们的代码可在https://github.com/sastpg/RFTT获取。
发布时间: 2/20/2025
查看原文