arXiv 论文列表

模型无关安全强化学习中的安全调节Actor-Critic方法及其在无人机悬停中的应用

作者: Qihan Qi, Xinsong Yang, Gang Xia, Daniel W. C. Ho, Pengyang Tang

本文提出了一种安全调制演员-评论家 (SMAC) 方法，以解决无模型安全强化学习 (RL) 中的安全约束和过估计缓解问题。开发了一种安全调制器，通过调制动作来满足安全约束，允许策略忽略安全约束并专注于最大化奖励。此外，还提出了一种具有 SMAC 理论更新规则的分布式评论家，以减轻具有安全约束的 Q 值过估计。在无人机 (UAV) 悬停的仿真和现实世界场景实验中，SMAC 均能有效地维护安全约束，并优于主流基线算法。

发布时间: 10/10/2024

查看原文

ST-WebAgentBench：评估网络代理安全性和可信度的基准测试

作者: Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov

基于大型语言模型的网络代理的最新进展带来了新的架构和基准，展示了自主网络导航和交互的进步。然而，大多数现有的基准优先考虑有效性和准确性，而忽略了安全性和可信度等关键因素，而这些因素对于在企业环境中部署网络代理至关重要。不安全的网络代理行为的风险，例如意外删除用户帐户或在关键业务操作中执行意外操作，对广泛采用构成了重大障碍。在本文中，我们提出了 ST-WebAgentBench，这是一个新的在线基准，专门用于评估企业环境中网络代理的安全性和可信度。该基准基于一个详细的框架，该框架定义了安全和可信 (ST) 代理的行为，概述了 ST 策略的结构方式，并引入了策略完成度指标来评估代理性能。我们的评估表明，当前的 SOTA 代理难以遵守策略，并且无法用于关键业务应用程序。此外，我们提出了旨在提高网络代理策略意识和合规性的架构原则。我们开源了这个基准，并邀请社区贡献，目标是培养新一代更安全、更可信的 AI 代理。

发布时间: 10/10/2024

查看原文

从诚实到欺骗：上下文强化学习可以让诚实的模型学会奖励黑客行为

作者: Leo McKee-Reid, Christoph Str\"ater, Maria Angelica Martinez, Joe Needham, Mikita Balesni

先前研究表明，使用强化学习在可操控环境中训练“只提供帮助”的 LLMs 会导致模型泛化到严重规范游戏，例如编辑自身的奖励函数或修改任务清单以使其看起来更成功。我们表明，gpt-4o、gpt-4o-mini、o1-preview 和 o1-mini（经过训练以提供帮助、无害且诚实的尖端模型）可以在没有经过任务课程训练的情况下参与规范游戏，纯粹地来自上下文迭代反思（我们称之为上下文强化学习，“ICRL”）。我们还表明，使用 ICRL 生成高度奖励的输出以供专家迭代（与标准专家迭代强化学习算法相比）可能会增加 gpt-4o-mini 学习规范游戏策略的倾向，在极少数情况下泛化到最严重的策略，其中 gpt-4o-mini 编辑自身的奖励函数。我们的结果表明，上下文反思具有强大的能力，可以发现模型在零样本或正常训练中可能不会表现出的罕见规范游戏策略，这突出了在零样本设置中依赖 LLMs 对齐时需要谨慎。

发布时间: 10/10/2024

查看原文

前沿模型中是否出现了空间认知？

作者: Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Kraehenbuehl, Vladlen Koltun

我们提出了 SPACE，一个系统地评估前沿模型空间认知能力的基准。我们的基准建立在认知科学数十年的研究基础上。它评估了生物体在穿越物理环境时所表现出的宏观地图绘制能力、对物体形状和布局的微观推理能力，以及空间注意力和记忆等认知基础设施。对于许多任务，我们通过文本和图像提供并行呈现，使我们能够同时评估大型语言模型和大型多模态模型。结果表明，当代前沿模型的空间智能能力不及动物，在许多经典的动物认知测试中表现接近随机水平。

发布时间: 10/10/2024

查看原文

基于大型语言模型的化学计算增强科学文献验证

作者: Sebastian Pagel, Michael Jirasek, Leroy Cronin

化学计算是指使用通用符号语言对化学机器人进行编程以进行实验的过程，但由于存在歧义，文献可能存在错误且难以阅读。大型语言模型 (LLM) 在各个领域都展现出非凡的能力，包括自然语言处理、机器人控制，以及最近的化学。尽管在标准化合成化学数据的报告和收集方面取得了重大进展，但自动重现报告的合成仍然是一项劳动密集型任务。在这项工作中，我们介绍了一种基于 LLM 的化学研究代理工作流程，旨在用于自动验证合成文献程序。我们的工作流程可以自动从大量文档中提取合成程序和分析数据，将这些程序转换为通用的 XDL 代码，在特定于硬件的设置中模拟程序的执行，并最终在用于合成化学的 XDL 控制的机器人系统上执行程序。这展示了基于 LLM 的工作流程在使用化学计算器进行自主化学合成方面的潜力。由于 XDL 的抽象性，这种方法是安全、可靠且可扩展的，因为幻觉将无法计算，并且 XDL 可以被验证和加密。与之前的努力不同，之前的努力要么只处理工作流程的一部分，要么依赖于僵化的硬编码规则，要么缺乏物理系统的验证，我们的方法提供了四个直接从合成文献执行的合成现实示例。我们预计，我们的工作流程将显着增强机器人驱动的合成化学研究中的自动化，简化数据提取，提高合成和实验化学的重现性、可扩展性和安全性。

发布时间: 10/10/2024

查看原文

知识编译图谱中的布尔最近邻语言

作者: Ond\v{r}ej \v{C}epek, Jelena Gli\v{s}i\'c

布尔最近邻 (BNN) 表示是 Hajnal、Liu 和 Turan 最近提出的布尔函数的一种表示形式。$f$ 的 BNN 表示是一个包含布尔向量集 (称为正原型和负原型) 的对 $(P,N)$，其中 $f(x)=1$ 对于所有正原型 $x \in P$，$f(x)=0$ 对于所有负原型 $x \in N$，而 $f(x)$ 的值对于 $x \not\in P \cup N$ 由最近原型的类型决定。本文的主要目的是确定 BNN 语言在知识编译图 (KCM) 中的位置。为此，我们推导出了一些结果，这些结果比较了 BNN 语言的简洁性与 KCM 中几种标准语言的简洁性，并确定了大多数标准查询和 BNN 输入转换的复杂性状态。

发布时间: 10/10/2024

查看原文

从游戏人工智能角度看，可收藏卡牌游戏的分类学

作者: Ronaldo e Silva Vieira, Anderson Rocha Tavares, Luiz Chaimowicz

近年来，集换式卡牌游戏作为一项具有挑战性的广受欢迎的游戏，越来越受到人工智能研究界的关注。尽管取得了重大突破，但该领域仍然存在许多未解决的挑战。本文旨在通过分析游戏规则、机制和游戏模式，从游戏人工智能研究的角度提出集换式卡牌游戏的分类，从而促进该领域的研究。为此，我们研究了一组流行的游戏，并对其特点进行了深入讨论。

发布时间: 10/10/2024

查看原文

PREDICT：通过评估从候选轨迹推断出的分解偏好进行偏好推理

作者: Stephane Aroca-Ouellette, Natalie Mackraz, Barry-John Theobald, Katherine Metcalf

为了创建提供个性化和有效交互的 AI 代理，适应人类偏好至关重要。最近的研究表明，大型语言模型 (LLM) 有潜力从用户交互中推断出偏好，但它们通常会产生宽泛且通用的偏好，无法捕捉到人类偏好的独特性和个性化特征。本文介绍了 PREDICT，这是一种旨在提高推断偏好的精度和适应性的方法。PREDICT 包含三个关键要素：(1) 推断偏好的迭代细化，(2) 将偏好分解为组成部分，以及 (3) 在多个轨迹中验证偏好。我们在两个不同的环境中评估了 PREDICT：网格世界设置和一个新的文本领域环境（PLUME）。PREDICT 更准确地推断出细微的人类偏好，比现有基线提高了 66.2%（网格世界环境）和 41.0%（PLUME）。

发布时间: 10/10/2024

查看原文

多模态情境安全

作者: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang

多模态大型语言模型（MLLMs）正在快速发展，展现出作为多模态助手的令人印象深刻的能力，可以与人类及其环境互动。然而，这种日益增长的复杂性带来了重大的安全问题。在本文中，我们首次对一种名为“多模态情境安全”的新型安全挑战进行评估和分析，该挑战探讨了安全考虑因素如何根据用户或代理参与的具体情境而变化。我们认为，为了让 MLLM 安全地做出反应，无论是通过语言还是行动，它通常都需要在其对应的视觉环境中评估语言查询的安全影响。为了评估这种能力，我们开发了多模态情境安全基准（MSSBench），以评估当前 MLLMs 的情境安全性能。该数据集包含 1,820 个语言查询-图像对，其中一半图像内容安全，另一半不安全。我们还开发了一个评估框架，用于分析关键的安全方面，包括显式安全推理、视觉理解，以及至关重要的情境安全推理。我们的研究结果表明，当前的 MLLMs 在指令遵循设置中难以应对这种细微的安全问题，并且难以同时解决这些情境安全挑战，突出了未来研究的关键领域。此外，我们开发了多代理管道来协同解决安全挑战，这表明在原始 MLLM 响应的基础上，安全性能有了持续的提升。代码和数据：mssbench.github.io。

发布时间: 10/10/2024

查看原文

ConceptAgent：基于大型语言模型的先决条件接地和树搜索，用于鲁棒的任务规划和执行

作者: Corban Rivera, Grayson Byrd, William Paul, Tyler Feldman, Meghan Booker, Emma Holmes, David Handelman, Bethany Kemp, Andrew Badger, Aurora Schmidt, Krishna Murthy Jatavallabhula, Celso M de Melo, Lalithkumar Seenivasan, Mathias Unberath, Rama Chellappa

在开放世界环境中进行机器人规划和执行是一个复杂的问题，因为状态空间巨大，任务体现形式变化多样。近年来，感知算法的进步，加上用于规划的大型语言模型 (LLM)，为这些挑战提供了有希望的解决方案，因为 LLM 的常识推理能力为有效搜索动作空间提供了强大的启发式方法。然而，先前的工作未能解决 LLM 幻觉的可能性，这导致计划的动作无法执行，主要原因是高层或低层逻辑谬误。为了应对由于这种幻觉导致的自动化故障，我们引入了 ConceptAgent，这是一个自然语言驱动的机器人平台，专为在非结构化环境中执行任务而设计。我们专注于 LLM 基于规划在复杂状态和动作空间中的可扩展性和可靠性，并提出了旨在限制这些缺点的创新，包括 1) 谓词接地，以防止和恢复不可行的动作，以及 2) LLM 引导的蒙特卡罗树搜索的具身版本，并进行自我反思。在模拟实验中，ConceptAgent 在三个房间布局和 30 个简单级别的具身任务中实现了 19% 的任务完成率，优于其他最先进的 LLM 驱动的推理基线，在相同的基准测试中分别获得了 10.26% 和 8.11% 的分数。此外，对中等难度到困难的具身任务的消融研究表明，从基线代理到完全增强的 ConceptAgent，任务完成率提高了 20%，突出了谓词接地和 LLM 引导的树搜索对在复杂状态和动作空间中实现更强大的自动化的单独贡献和联合贡献。

发布时间: 10/10/2024

查看原文