arXiv 论文列表

作者: Stelios Triantafyllou, Aleksa Sukovic, Yasaman Zolfimoselo, Goran Radanovic

arXiv:2410.12539v2 宣告类型: 替换摘要: 我们解决了在多智能体马尔可夫决策过程中解释反事实结果的挑战。具体而言，我们旨在通过其对环境动力学和智能体行为的影响，解释代理行动在整个实现场景中的总反事实效果。为了实现这一目标，我们引入了一种新的因果解释公式，通过将每个代理和状态变量与反映其对效果贡献的分数联系起来，来分解反事实效果。首先，我们证明代理行动的总反事实效果可以分解为两个部分：一个衡量通过所有后续代理行动传播的效果，另一个与通过状态转换传播的效果有关。基于最近在因果贡献分析方面的进展，我们进一步将这些效果分解如下。对于前者，我们考虑代理特定效果——这是一个衡量代理行动通过一组代理传播的反事实效果的概念。基于这一概念，我们使用Shapley值将效果分配给个别代理。对于后者，我们考虑结构保持干预的概念，并基于状态变量的“内在”贡献将效果分配给状态变量。通过广泛的实验，我们在带有LLM辅助代理的Gridworld环境和脓毒症管理模拟器中展示了我们方法的可解释性。

发布时间: 2/10/2025

查看原文

COMMA: 一种沟通式的多模态多智能体基准

作者: Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu

arXiv:2410.07553v2 公告类型: 替换摘要: 基于大规模基础模型构建的多模态代理的快速发展在很大程度上忽视了它们在协作任务中进行基于语言的代理间通信的潜力。这种忽视在现实中部署时带来了关键的差距，特别是在与人类通信方面。现有的代理基准未能解决多代理间通信和协作的关键方面，特别是在代理间信息获取不平等且必须共同努力完成超出个体能力的任务场景中。为了填补这一空白，我们 introduces 一个新颖的基准测试，旨在通过语言通信评估多模态多代理系统的协作性能。该基准测试包含各种场景，提供了对沟通协作环境中四种关键代理能力的全面评估。通过使用开源和封闭源模型测试代理间以及代理与人类的合作，我们的发现揭示了最先进的模型（包括私有模型如GPT-4o）中的令人惊讶的弱点。这些模型在代理间合作中甚至难以超过简单的随机代理基线，在涉及人类时才能超越随机基线。

发布时间: 2/10/2025

查看原文

A-VL：自适应注意力机制用于大规模视觉-语言模型

作者: Junyang Zhang, Mu Yuan, Ruiguang Zhong, Puhan Luo, Huiyou Zhan, Ningkang Zhang, Chengchen Hu, Xiangyang Li

arXiv:2409.14846v2 宣告类型: 替换摘要：大型视觉-语言模型（LVLM）结合了计算机视觉和自然语言处理技术，具有巨大的应用潜力。然而，这些模型在推理过程中需要大量的资源。自适应注意力技术可以动态地减少计算冗余，从而提高效率。尽管目前的自适应注意力方法显著降低了基于Transformer的语言模型的内存需求，但这些方法并不针对LVLM进行优化。我们观察到，LVLM从远程图像令牌和局部文本令牌中生成响应，不同的模态有不同的注意力模式。这一观察促使我们为每种模态分别管理注意力。具体来说，对于视觉输入，我们存储可能有用的信息，但只计算最关键的部分。对于语言输入，我们更关注局部信息。基于我们对视觉-语言注意力模式的观察和分析，我们开发了A-VL，这是一种插拔式自适应注意力方法，旨在适应LVLM的推理。在三个视觉-语言任务和五个数据集上的广泛评估表明，我们的设计是有效的。我们的方法A-VL在减少内存使用和计算负载方面优于现有自适应注意力方法，而不影响性能。

发布时间: 2/10/2025

查看原文

BCR-DRL：基于行为和上下文的奖励在人类与AI协调中的深度强化学习

作者: Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley, Gaoyang Pang

arXiv:2408.07877v4 宣告类型: 更改摘要: 深度强化学习(DRL)提供了一种强大的框架，用于训练AI代理与人类伙伴进行协调。然而，DRL在人类-AI协调(HAIC)中面临着两个关键挑战：稀疏奖励和不可预测的人类行为。这些挑战显著限制了DRL识别有效的协调策略的能力，因为其优化探索和利用的能力受到了限制。为了解决这些限制，我们提出了一种创新的行为和上下文感知奖励(BCR)，通过利用HAIC中的人类行为和上下文信息来优化探索和利用。我们的BCR由两个部分组成：(i) 一种新颖的双内在奖励方案，以增强探索。该方案由AI自我激励的内在奖励和人类动机的内在奖励组成，设计用于通过基于对数的方法增加对稀疏奖励的捕捉；以及(ii) 一种新的设计奖励的上下文感知加权机制，以改善利用。这种机制通过利用可以反映HAIC中学习演变的上下文信息，帮助AI代理优先选择更好地与人类合作伙伴协调的动作。在Overcooked环境中的广泛模拟表明，与最先进的基线相比，我们的方法可以将累积稀疏奖励提高约20%，并将收敛时间减少约67%。

发布时间: 2/10/2025

查看原文

通过随机选择实现可关闭代理

作者: Elliott Thornley, Alexander Roman, Christos Ziakas, Leyton Ho, Louis Thomson

arXiv:2407.00805v3 通知类型: 替换摘要: 有些人担心先进的类人代理可能会抗拒被关闭。不完整偏好数提案 (IPP) 是一个确保这种情况不会发生的思路。IPP 的关键部分是使用一种新颖的“相同长度轨迹折扣奖励 (DREST)”奖励函数来训练代理，使其 (1) 在每段轨迹长度条件下有效地追求目标（成为“有用”），(2) 在不同的轨迹长度之间进行随机选择（对轨迹长度保持“中立”）。在本文中，我们提出了评估“有用性”和“中立性”的度量标准。我们使用 DREST 奖励函数来训练简单的代理在网格世界中导航，并发现这些代理学会了变得“有用”和“中立”。因此，我们的结果表明，DREST 奖励函数也可以训练高级代理变得“有用”和“中立”，从而使得这些高级代理既有用又有关闭的可能性。

发布时间: 2/10/2025

查看原文

AI 保底策略：语言模型可以在评估中战略性地表现出色不足

作者: Teun van der Weij, Felix Hofst\"atter, Ollie Jaffe, Samuel F. Brown, Francis Rhys Ward

arXiv:2406.07358v4 宣告类型: 修改摘要：确保人工智能系统安全的可信能力评估至关重要，并且已成为人工智能监管的关键组成部分。然而，人工智能系统的开发者或系统本身可能会有低估人工智能实际能力的动机。这些相互冲突的利益导致了一种称为“埋雷”（sandbagging）的问题，我们定义为在评估过程中战略性地表现不佳。在本文中，我们评估了当前语言模型（LMs）的埋雷能力。我们促使前沿语言模型，如GPT-4和Claude 3 Opus，在危险的能力评估中选择性地表现不佳，同时在一般（无害）能力评估中保持性能。此外，我们发现模型可以通过在合成数据集上进行微调，除非给予密码，否则可以隐藏特定的能力。这种行为可以扩展到高性能、保留的基准，如WMDP。此外，我们展示了前沿模型和较小的模型可以被提示或密码锁定，以在能力评估中达到特定的分数。我们部分成功地将模型锁定以模仿较弱模型会给出的答案。总之，我们的结果表明，能力评估容易受到埋雷的影响。这种脆弱性降低了评估的可信度，并因此损害了关于先进人工智能系统开发和部署的重要安全决策。

发布时间: 2/10/2025

查看原文

三维特性：识别DPO中的挑战并图绘前进之路

作者: Yuzi Yan, Yibo Miao, Jialian Li, Yipin Zhang, Jian Xie, Zhijie Deng, Dong Yan

arXiv:2406.07327v2 Announce Type: replace 摘要：使大型语言模型（LLMs）与人类偏好保持一致引起了广泛关注，以最近端策略优化（PPO）为代表的方法虽标准但计算成本高，而直接偏好优化（DPO）则更高效。尽管DPO具有简单性，但在最先进的LLM中仍被低估使用，表明可能存在局限性。在本文中，我们重新审视了DPO，分析其理论基础和实证性能，以解决这一问题。我们识别出三个关键特性，称为3D特性，这些特性源于DPO的学习过程：拒绝响应可能性急剧下降、响应抑制下降以及对未见过的响应的影响分散效应。我们展示了这些问题是由于DPO优化动态导致的，其中选择和拒绝响应梯度之间的相互作用导致了不稳定性。我们的发现通过在受控玩具模型和实际的LLM任务（包括数学问题解决和指令跟随）上的实验得到了支持。为了应对这些挑战，我们提出了简单正则化技术，以提高训练稳定性和性能。此外，我们还探讨了偏好数据分布如何影响DPO的有效性，提供了关于如何应对域外（OOD）数据的认知。我们的工作将这些观察与更广泛的研究所联系起来，并提供了DPO局限性的理论解释。我们希望这些见解能够指导未来在无奖励模型的偏好学习方面的进步，使其更接近于基于奖励模型的方法。

发布时间: 2/10/2025

查看原文

ACCORD: 关闭常识可度量性缺口

作者: Fran\c{c}ois Roewer-Despr\'es, Jinyue Feng, Zining Zhu, Frank Rudzicz

arXiv:2406.02804v2 宣布类型: 修改摘要: 我们介绍了ACCORD框架和基准套件，通过可控的多跳反事实来分离常识接地和大型语言模型（LLMs）的推理能力。ACCORD引入了形式化的常识推理元素，以明确控制和量化超出典型1到2跳的推理复杂性。独特的是，ACCORD可以自动生成任意推理复杂性的基准，因此它能够随着未来LLM的改进而扩展。基准测试最新的LLM（包括GPT-4o（2024-05-13）、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1）显示，在只有适度扩展的情况下，性能下降到随机猜测水平，留下了显著的改进空间。我们发布了一个在本工作中测试的基准套件的排行榜，以及用于自动生成更复杂基准的代码。

发布时间: 2/10/2025

查看原文

MELON：通过掩蔽重执行和工具比较的间接提示注入防护

作者: Kaijie Zhu, Xianjun Yang, Jindong Wang, Wenbo Guo, William Yang Wang

arXiv:2502.05174v1 Announce Type: 横跨领域摘要：近期的研究表明，LLM代理容易受到间接提示注入(IPI)攻击的影响，即恶意任务可能嵌入到从工具检索的信息中，从而引导代理执行未经授权的操作。现有的IPI防御存在显著的局限性：要么需要关键的模型训练资源，要么对于复杂的攻击缺乏有效性，要么会损害正常的功能。我们提出了MELON（Masked re-Execution and TooL comparisON）这一新颖的IPI防御。我们的方法基于观察，即在成功攻击下，代理的后续动作变得更加依赖于恶意任务，而非用户任务。在此基础上，我们设计MELON通过使用掩码函数修改用户提示重新执行代理轨迹来检测攻击。如果原始执行和掩码执行生成的动作相似，则认为存在攻击。我们还引入了三个关键设计来降低潜在的误报和漏报。在IPI基准AgentDojo上的广泛评估表明，MELON在攻击预防和功能保留方面均优于当前最佳防御。此外，我们将MELON与当前最佳提示增强防御（用MELON-Aug表示）结合使用，进一步提高了性能。我们还进行了一项详细的消融研究来验证我们的关键设计。

发布时间: 2/10/2025

查看原文

联合MoE标度法则：混合专家可以实现内存高效性

作者: Jan Ludziejewski, Maciej Pi\'oro, Jakub Krajewski, Maciej Stefaniak, Micha{\l} Krutul, Jan Ma{\l}a\'snicki, Marek Cygan, Piotr Sankowski, Kamil Adamczewski, Piotr Mi{\l}o\'s, Sebastian Jaszczur

arXiv:2502.05172v1 Announce Type: cross 摘要：专家混合（MoE）架构在大规模机器学习模型的研究和实际应用中显著提高了计算效率。然而，它们在内存限制下的可扩展性和效率仍相对未被充分探索。在本项工作中，我们提出了一种结合活跃参数数量、数据集大小和专家数量等关键因素的联合缩放定律。我们的研究结果提供了一个有原则的框架，用于在固定内存和计算预算下选择最优的MoE配置。令人惊讶的是，我们展示了MoE模型可以在内存效率方面优于密集模型，这与常识相悖。为了推导和验证我们缩放定律的理论预测，我们进行了超过280次实验，涉及多达27亿个活跃参数和多达50亿个总参数。这些结果为在实际大规模训练场景中设计和部署MoE模型提供了可操作的见解。

发布时间: 2/10/2025

查看原文