arXiv 论文列表

作者: Peter David Fagan, Subramanian Ramamoorthy

arXiv:2409.18768v3 宣告类型: 更换摘要：学习从演示(LfD)是一种用于训练解决涉及复杂运动任务的策略的有效范式，例如机器人操作中遇到的任务。实际上，LfD 成功应用的关键在于解决策略执行过程中错误累积的问题，即随着时间推移错误累积而导致的漂移以及由此引发的离分布行为。现有工作通过扩大数据收集规模、在人机交互过程中纠正策略错误、通过时间序预测集成策略预测或通过学习具有收敛保证的动力学系统模型等方式来解决这个问题。在这项工作中，我们提出并验证了一种克服这一问题的替代方法。受水库计算的启发，我们开发了一种循环神经网络层，该层包含一个固定的动力学系统和可调的动力学特性，用于建模时间动态。我们在使用LASA人类书写数据集的书写运动再现任务上验证了我们神经网络层的有效性。通过实验证明，将我们的层集成到现有的神经网络架构中，可以解决LfD中累积错误的问题。此外，我们还对现有的各种方法进行了比较评估，包括时间序策略预测集成和回声状态网络(ESN)实现。我们发现，在书写任务中，我们的方法在策略精度和鲁棒性方面优于现有方法，并且还能适应多种动力学模式，同时保持竞争性的延迟得分。

发布时间: 2/12/2025

查看原文

OmniBal：通过 omniverse 计算平衡 toward 快速视觉-语言模型的指令调优

作者: Yongqiang Yao, Jingru Tan, Jiahao Hu, Feizhao Zhang, Yazhe Niu, Xin Jin, Bo Li, Ruihao Gong, Pengfei Liu, Dahua Lin, Ningyi Xu

arXiv:2407.20761v3 通知类型: 替换摘要: 最近，由于这些模型对世界的理解更加全面，视觉-语言指令调优模型取得了显著进展。在本工作中，我们发现large-scale 3D并行训练导致不同设备上的计算负载不平衡。视觉和语言部分本质上是异构的：它们的数据分布和模型架构差异很大，这影响了分布式训练的效率。我们从数据、模型和内存角度重新平衡计算负载，以解决这个问题，从而在设备之间实现更平衡的计算。这三个组成部分不是独立的，而是紧密相连的，形成了一个全方位平衡训练框架。具体而言，在数据方面，我们按照新的平衡最小批量对实例进行分组，包括跨设备。在模型方面，我们采用了基于搜索的方法来实现更平衡的分区。在内存优化方面，我们针对每个分区调整再计算策略，充分利用可用内存。我们进行了大量实验以验证我们方法的有效性。与开源训练代码InternVL-Chat相比，我们显著减少了GPU天数，实现了大约1.8倍的加速。我们在各种模型和数据集上进一步证明了我们方法的有效性和通用性。代码将在https://github.com/ModelTC/OmniBal发布。

发布时间: 2/12/2025

查看原文

模型手术：通过简单的参数编辑调节LLM的行为

作者: Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang

arXiv:2407.08770v2 宣告类型: 替换摘要: 大型语言模型（LLMs）展示了作为通用助手的巨大潜力，展示了强大的任务理解和问题解决能力。为了将LLMs部署为AI助手，这些模型需要表现出诸如无毒性和对破解尝试的抗性等理想的行为特征。目前用于去毒或防止破解的方法通常涉及有监督的微调（SFT）或基于人类反馈的强化学习（RLHF），这需要通过梯度下降对数十亿参数进行微调，带来巨大的计算成本。此外，通过SFT和RLHF修改的模型可能会偏离预训练模型，可能导致基础LLM能力的退化。在本文中，我们观察到，令人惊讶的是，直接编辑一小部分参数可以有效地调节LLMs的特定行为，如去毒和抗破解，只需要推理级别的计算资源。实验表明，在去毒任务中，我们的方法在RealToxicityPrompts数据集上实现了90.0%的毒性降低，在ToxiGen上实现了49.2%的降低，同时保持了LLM在常识、问答和数学等领域的通用能力。

发布时间: 2/12/2025

查看原文

基础模型用于决策时的幻觉检测：灵活的定义与现有研究综述

作者: Neeloy Chakraborty, Melkior Ornik, Katherine Driggs-Campbell

arXiv:2403.16527v2 更新类型: 重写摘要：自主系统即将无处不在，涵盖制造、农业、医疗保健、娱乐和其他行业。这些系统中的大多数都是使用用于决策、规划和控制的模块化子组件开发的，这些子组件可能是手动工程化的或基于学习的。尽管这些方法在它们被专门设计的场景中表现良好，但在测试时肯定会遇到的离分布场景中，它们的表现可能会特别差劣。随着在多个任务上进行训练并在庞大数据库的基础上生成令人印象深刻的训练模型的兴起，研究人员相信这些模型可以提供现有的规划者所缺失的“常识”推理，从而弥合算法开发与部署之间的差距。尽管研究人员展示了将训练模型部署到决策任务的成功前景，但这些模型已知会产生幻觉，并生成听起来合理但实际上很糟糕的决策。我们认为需要后退一步，同时设计系统来量化模型决策的信心度，并在可能的情况下检测其是否在产生幻觉。在本文中，我们讨论了训练模型在决策任务中的当前应用场景，提供了幻觉的通用定义并附有示例，讨论了决策问题中幻觉检测和减轻的现有方法，提出了指导原则，并探讨了这个令人兴奋领域进一步研究的领域。

发布时间: 2/12/2025

查看原文

混合参与系统中价值偏好估计与去歧义化

作者: Enrico Liscio, Luciano C. Siebert, Catholijn M. Jonker, Pradeep K. Murukannaiah

arXiv:2402.16751v3 宣布类型：替换摘要：理解公民在参与系统中的价值观对于以公民为中心的政策制定至关重要。我们设想一个混合参与系统，在该系统中，参与者做出选择并提供这些选择的理由，而AI代理通过与他们的互动来估计他们的价值偏好。我们专注于检测到参与者的选择和动机之间存在冲突的情况，并提出了一种方法，在与参与者互动中解决这些检测到的不一致，同时估计价值观偏好。我们将哲学立场具体化为“价值评判是有意后果性的”。也就是说，如果参与者的决策是基于价值偏好的深思熟虑而做出的，那么这些价值偏好可以从参与者为该决策提供的动机中观察到。因此，我们提出并比较了一种优先从动机中估计价值观，而非仅从选择中估计价值观的方法。然后，我们介绍了一种消歧策略，结合自然语言处理和主动学习来解决检测到的选择和动机之间的不一致。我们使用针对能源转型的大规模调查数据集评估了所提出的方法。结果表明，明确解决选择和动机之间的不一致性可以改善对个人价值观偏好的估计。消歧策略与类似基线相比没有显示出重大改进——然而，我们讨论了这种方法的新颖性如何开启新的研究方向，并提出了改进措施以解决当前的局限性。

发布时间: 2/12/2025

查看原文

内省规划：使robots的不确定性与固有任务模糊性保持一致

作者: Kaiqu Liang, Zixu Zhang, Jaime Fern\'andez Fisac

arXiv:2402.06529v4 Announce Type: replace 摘要：大型语言模型（LLMs）展示出高级的推理能力，使机器人能够理解自然语言指令并通过适当的语义关联战略性地规划高级行动。然而，LLMs的幻觉可能导致机器人自信地执行与用户目标不一致或在关键场景中不安全的计划。此外，自然语言指令中的固有模糊性也会引入不确定性，影响LLMs的推理和计划过程。我们提出了一种反思性规划方法，这是一种系统的方法，旨在将LLMs的不确定性与任务的固有模糊性对齐。我们的方法构建了一个知识库，其中包含反思推理示例作为后置的合理化，这些示例是基于人工选择的安全且合规计划而构建的，它们在部署过程中被检索。在三个任务上进行的评估，包括一个新引入的安全移动操作基准测试，表明反思性规划相对于最先进的LLM基规划方法显著提高了合规性和安全性。此外，我们实验证明，结合使用反思性规划和宽度校准预测，能够获得更紧密的置信区间，同时在最小化不必要的用户澄清请求的情况下保持统计成功率的保证。更多资料和代码可在https://introplan.github.io获取。

发布时间: 2/12/2025

查看原文

AI中的非理性状态：研究现状、研究挑战和开放问题

作者: Olivia Macmillan-Scott, Mirco Musolesi

arXiv:2311.17165v3 公告类型: 修改摘要：理性概念是人工智能领域的核心。无论是为了模拟人类推理，还是为了实现有限的最优性，我们通常都力求让人工代理尽可能地理性。尽管理性概念在人工智能领域具有核心地位，但尚未形成统一的理性代理的定义。本文提供了人工智能中理性与非理性现象的综述，并指出了该领域的开放问题。其他领域的对理性的理解已经影响了人工智能领域对其的观念，特别是在经济学、哲学和心理学方面的研究成果。集中于人工代理的行为，我们考虑某些情况下可能最优的非理性行为。一些方法已经被开发出来，用于处理非理性代理，包括识别和互动方面，但在这一领域的研究仍有限。迄今为止为其他目的开发的方法，例如对抗性场景的方法，可能适用于与人工代理互动的情况。本文还讨论了人类与人工代理之间的互动以及理性在这其中所扮演的角色；这个领域中的许多问题仍然存在，涉及人类和人工代理的潜在非理性行为。

发布时间: 2/12/2025

查看原文

使用世界模型进行强化学习中的新颖性检测

作者: Geigh Zollicoffer, Kenneth Eaton, Jonathan Balloch, Julia Kim, Wei Zhou, Robert Wright, Mark O. Riedl

arXiv:2310.08731v3 公告类型：替换摘要：使用世界模型的强化学习（RL）近期取得了显著的成功。然而，当世界机制或属性突然变化时，代理的表现和可靠性会急剧下降。我们将视觉属性或状态转换的突然变化称为新颖性。在生成的世界模型框架中实现新颖性检测是保护部署代理的关键任务。在本文中，我们提出了一种简单的方法，即将新颖性检测集成到世界模型RL代理中，通过利用世界模型的幻象状态与真正的观察状态之间的不对齐作为异常评分。我们提供了有效的方法来检测代理在世界模型中学习的状态转换分布中的新颖性。最后，我们展示了与传统的机器学习新颖性检测方法以及当前接受的RL专注于新颖性检测的算法相比，我们工作的优势。

发布时间: 2/12/2025

查看原文

打破偏见：关于可泛化的剪枝策略的极限

作者: Sibo Ma, Alejandro Salinas, Peter Henderson, Julian Nyarko

arXiv:2502.07771v1 跨领域通知类型：交叉摘要：我们采用模型修剪的方法来探索大语言模型（LLMs）如何概念化种族偏见，以及是否存在一种可泛化的缓解此类偏见的策略。我们的分析揭示了几个新颖的见解。我们发现，修剪可以是一种有效的方法来减少偏见，同时显著增加异常模型行为。基于神经元的修剪策略通常比修剪整个注意力头的方法表现更好。然而，我们的结果也表明，随着修剪策略变得更为泛化，这两种方法的有效性都会迅速下降。例如，一个在金融决策背景下移除种族偏见的模型在商业交易中的偏见缓解表现出明显的泛化不足。总体而言，我们的分析表明，语言模型内部种族偏见只部分地作为一种泛化概念存在。这些偏见的另一部分高度依赖于具体情境，这表明泛化缓解策略可能效果有限。我们的发现对围绕AI的法律框架具有重要意义。特别是，这表明有效的缓解策略应该包括在特定应用场景下部署模型的责任分配。

发布时间: 2/12/2025

查看原文

约束强化学习的多项式时间逼近性

作者: Jeremy McMahan

arXiv:2502.07764v1 宣告类型: cross 摘要: 我们研究了近似一般约束马尔可夫决策过程的计算复杂性。我们的主要贡献是对广泛可递归计算的约束类别设计了一种多项式时间的 $(0,\epsilon)$-双准则近似算法，用于找到最优约束策略，包括几乎肯定、概率、期望及其任意时间变体。匹配的下界表明，只要 $P \neq NP$，我们的近似保证就最优。我们方法的普遍性回答了受约束强化学习文献中几个长期悬而未决的计算复杂性问题。具体而言，我们首次证明了以下设置的多项式时间近似可解性：在概率约束下的策略、在多个期望约束下的确定性策略、在非齐次约束下的策略（即，不同类型的约束）以及连续状态过程下的约束策略。

发布时间: 2/12/2025

查看原文