arXiv 论文列表

作者: Maxence Faldor, Antoine Cully

细胞自动机已成为跨越神经科学、人工生命和理论物理等多个科学学科研究涌现和自组织现象的基石。然而，缺乏硬件加速的细胞自动机库限制了对新研究方向的探索、阻碍了合作，并阻碍了可重复性。在这项工作中，我们介绍了 CAX（在 JAX 中加速的细胞自动机），这是一个旨在加速细胞自动机研究的高性能、灵活的开源库。CAX 通过用户友好的界面提供尖端的性能和模块化设计，并且可以支持任何维度的离散和连续细胞自动机。我们通过广泛的基准测试和应用展示了 CAX 的性能和灵活性。从经典模型（如基本细胞自动机和康威的生命游戏）到高级应用（如生长神经细胞自动机和自分类 MNIST 数字），CAX 将模拟速度提高了 2,000 倍。此外，我们展示了 CAX 加速研究的潜力，并展示了一组三个新颖的细胞自动机实验，这些实验得益于库的模块化架构，每个实验只需几行代码即可实现。值得注意的是，我们表明，一个简单的单维细胞自动机在 1D-ARC 挑战中可以胜过 GPT-4。

发布时间: 10/4/2024

查看原文

大型语言模型中的不良记忆：综述

作者: Ali Satvaty, Suzan Verberne, Fatih Turkmen

尽管近期研究不断展示大型语言模型（LLMs）的卓越能力，但直面其隐藏的缺陷至关重要。其中，记忆问题尤为突出，带来了重大的伦理和法律风险。本文对 LLMs 中的记忆问题进行了系统化知识梳理 (SoK)。记忆是指模型倾向于存储和复制训练数据中的短语或段落，已被证明是针对 LLMs 的各种隐私和安全攻击的核心问题。我们首先概述了关于记忆的文献，从五个关键维度对其进行了探讨：意图性、程度、可检索性、抽象性和透明度。接下来，我们讨论了用于衡量记忆的指标和方法，并分析了导致记忆现象的因素。然后，我们研究了记忆如何在特定模型架构中表现出来，并探索了减轻这些影响的策略。最后，我们通过确定未来研究的潜在课题来总结我们的概述：开发在 LLMs 中平衡性能和隐私的方法，以及分析特定环境下的记忆，包括对话式代理、检索增强生成、多语言语言模型和扩散语言模型。

发布时间: 10/4/2024

查看原文

代理安全基准 (ASB)：形式化和基准测试基于 LLM 的代理中的攻击和防御

作者: Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang

尽管基于大型语言模型 (LLM) 的代理可以通过使用外部工具和记忆机制来解决复杂的现实世界任务，但它们也可能引入严重的安全性漏洞。然而，现有的文献并没有全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题，我们引入了代理安全基准 (ASB)，这是一个全面的框架，旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御，包括 10 个场景（例如，电子商务、自动驾驶、金融）、针对这些场景的 10 个代理、超过 400 个工具、23 种不同类型的攻击/防御方法和 8 个评估指标。基于 ASB，我们对 10 种提示注入攻击、一种记忆中毒攻击、一种新颖的思维计划后门攻击、一种混合攻击以及 10 种相应的防御进行了基准测试，这些测试涵盖了 13 个 LLM 主干，总共进行了近 90,000 次测试。我们的基准测试结果揭示了代理操作的不同阶段的严重漏洞，包括系统提示、用户提示处理、工具使用和记忆检索，平均攻击成功率高达 84.30%，但目前防御的有效性有限，揭示了社区在代理安全方面需要做的重要工作。我们的代码可以在 https://github.com/agiresearch/ASB 中找到。

发布时间: 10/4/2024

查看原文

逆熵最优传输通过数据似然最大化解决半监督学习问题

作者: Mikhail Persiianov, Arip Asadulaev, Nikita Andreev, Nikita Starodubcev, Dmitry Baranchuk, Anastasis Kratsios, Evgeny Burnaev, Alexander Korotin

学习条件分布 $\pi^*(\cdot|x)$ 是机器学习中的一个核心问题，通常通过使用成对数据 $(x,y) \sim \pi^*$ 的监督方法来解决。然而，获取成对数据样本通常很困难，尤其是在领域转换等问题中。这需要开发利用有限成对数据和额外的非成对独立同分布样本 $x \sim \pi^*_x$ 和 $y \sim \pi^*_y$ 的**半监督**模型。这种组合数据的用法很复杂，通常依赖于启发式方法。为了解决这个问题，我们提出了一种新的学习范式，通过数据似然最大化技术**无缝地**整合成对数据和非成对数据。我们证明了我们的方法也与逆熵最优传输 (OT) 有着有趣的联系。这一发现使我们能够应用计算 OT 的最新进展，建立一种**轻量级**的学习算法来获得 $\pi^*(\cdot|x)$。此外，我们通过实证测试证明，我们的方法可以有效地使用成对数据和非成对数据同时学习条件分布。

发布时间: 10/4/2024

查看原文

NL-Eye：图像的溯因式自然语言推理

作者: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart

基于视觉语言模型（VLM）的机器人能否在检测到湿滑地板时提醒我们注意滑倒的风险？最近的 VLM 表现出了令人印象深刻的能力，但它们推断结果和原因的能力仍未得到充分探索。为了解决这个问题，我们引入了 NL-Eye，这是一个旨在评估 VLM 视觉反绎推理能力的基准。NL-Eye 将反绎自然语言推理（NLI）任务改编到视觉领域，要求模型根据前提图像评估假设图像的合理性并解释其决策。NL-Eye 包含 350 个精心策划的三元组示例（1050 张图像），涵盖各种推理类别：物理、功能、逻辑、情感、文化和社会。数据整理过程涉及两个步骤——编写文本描述和使用文生图模型生成图像，这两个步骤都需要大量的人工参与以确保高质量和具有挑战性的场景。我们的实验表明，VLM 在 NL-Eye 上表现出明显困难，通常表现为随机基线水平，而人类在合理性预测和解释质量方面都表现出色。这表明现代 VLM 的反绎推理能力存在缺陷。NL-Eye 代表着朝着开发能够进行强大的多模态推理以用于现实世界应用（包括事故预防机器人和生成的视频验证）的 VLM 的方向迈出的关键一步。

发布时间: 10/4/2024

查看原文

IndicSentEval：多语言 Transformer 模型在多大程度上编码了印度语系的语言属性？

作者: Akhilesh Aravapalli, Mounika Marreddy, Subba Reddy Oota, Radhika Mamidi, Manish Gupta

基于Transformer的模型彻底改变了自然语言处理领域。为了理解它们为何能如此出色地执行任务并评估其可靠性，一些研究集中于以下问题：这些模型编码了哪些语言属性，以及编码程度如何？当输入文本受到扰动时，这些模型在编码语言属性方面的鲁棒性如何？然而，这些研究主要集中在BERT和英语上。在本文中，我们使用9种多语言Transformer模型（7种通用模型和2种印度语种专用模型），研究了8种语言属性在13种不同扰动下，针对6种印度语种的编码能力和鲁棒性问题。为了进行这项研究，我们引入了一个新的多语言基准数据集IndicSentEval，包含大约$\sim$47K个句子。令人惊讶的是，我们对表面、句法和语义属性的探测分析表明，虽然几乎所有多语言模型都表现出对英语一致的编码性能，但它们对印度语种的表现却参差不齐。正如预期的那样，印度语种专用多语言模型比通用模型更能捕捉到印度语种的语言属性。有趣的是，通用模型在鲁棒性方面普遍优于印度语种专用模型，尤其是在删除名词和动词、仅删除动词或仅保留名词等扰动下。总而言之，这项研究为探测和扰动特定情况下，流行的多语言Transformer模型在不同印度语种上的优势和劣势提供了宝贵的见解。我们将代码和数据集公开发布[https://tinyurl.com/IndicSentEval]。

发布时间: 10/4/2024

查看原文

超越预期收益：一种基于累积前景理论的强化学习策略梯度算法

作者: Olivier Lepel, Anas Barakat

广泛使用的预期效用理论在心理学和行为经济学文献中被证明与人类偏好不一致。累积前景理论（CPT）的出现填补了这一空白，并为人类决策提供了更好的模型，该模型得到了经验证据的支持。它可以表达各种各样的风险、收益和损失的态度和认知。几年前，CPT 与强化学习 (RL) 相结合，形成了一个 CPT 策略优化问题，其中智能体的目标是寻找一个策略，该策略生成与他们的偏好一致的长期回报。在这项工作中，我们重新审视了这个策略优化问题，并根据所考虑的效用函数，提供了关于最优策略及其性质的新见解。我们进一步推导出 CPT 策略优化目标的新策略梯度定理，推广了标准 RL 中的相应结果。这一结果使我们能够设计一种无模型策略梯度算法来解决 CPT-RL 问题。我们在受交通控制和电力管理应用启发的简单示例中说明了我们算法的性能。我们还证明了，与解决相同问题的现有零阶算法相比，我们的策略梯度算法更能扩展到更大的状态空间。

发布时间: 10/4/2024

查看原文

超越平方误差：探索用于增强生成流网络训练的损失函数设计

作者: Rui Hu, Yifan Zhang, Zhuoran Li, Longbo Huang

生成流网络 (GFlowNets) 是一种新颖的生成模型，旨在从非归一化分布中采样，并在各种重要任务中得到应用，其训练算法引起了极大的研究兴趣。通常，GFlowNets 通过将正向流拟合到采样训练对象上的反向流来进行训练。先前的工作集中在训练对象的选取、参数化、采样和重采样策略以及反向策略上，旨在增强训练过程中的信用分配、探索或利用。然而，回归损失的选择却被忽视，而回归损失可以极大地影响训练中策略的探索和利用行为。由于缺乏对选择适当回归损失的理论理解，大多数现有算法通过最小化对数空间中正向流和反向流的平方误差来训练流网络，即使用二次回归损失。在这项工作中，我们严格证明了不同的回归损失对应于特定的散度度量，使我们能够根据所需散度度量的特性设计和分析回归损失。具体来说，我们检查了两个关键属性：零强制和零回避，前者促进利用和更高的奖励，而后者鼓励探索并增强多样性。基于我们的理论框架，我们提出了三种新的回归损失，即移位双曲余弦、Linex(1/2) 和 Linex(1)。我们在三个基准上对它们进行了评估：超网格、比特序列生成和分子生成。我们提出的损失与大多数现有的训练算法兼容，并且在收敛速度、样本多样性和鲁棒性方面显著提高了算法的性能。

发布时间: 10/4/2024

查看原文

车内多模态多目标监控系统：用于监测驾驶员和乘客异常状态

作者: Zihan Fang, Zheng Lin, Senkang Hu, Hangcheng Cao, Yiqin Deng, Xianhao Chen, Yuguang Fang

近年来，车内监控已成为检测驾驶员早期异常状态并及时预警以防止交通事故的有前景的技术。尽管使用多模态数据训练模型提高了异常状态检测的可靠性，但标记数据的稀缺性和类别分布的不平衡阻碍了关键异常状态特征的提取，显著降低了训练性能。此外，由于环境和硬件限制导致的模态缺失进一步加剧了异常状态识别的挑战。更重要的是，监控乘客，尤其是老年人护理中的乘客的异常健康状况至关重要，但仍未得到充分探索。为了应对这些挑战，我们介绍了我们的 IC3M，这是一个基于相机旋转的多模态框架，用于监控汽车中的驾驶员和乘客。我们的 IC3M 包含两个关键模块：自适应阈值伪标记策略和缺失模态重建。前者根据类别分布为不同类别定制伪标记阈值，生成类别平衡的伪标签以有效地指导模型训练，而后者利用从有限标签中学到的跨模态关系，通过从可用模态进行分布转移来准确地恢复缺失模态。大量的实验结果表明，IC3M 在准确率、精确度和召回率方面优于最先进的基准，同时在有限的标记数据和严重的模态缺失情况下表现出优异的鲁棒性。

发布时间: 10/4/2024

查看原文

通过等变性提高多智能体强化学习的样本效率和泛化能力

作者: Joshua McClellan, Naveed Haghani, John Winder, Furong Huang, Pratap Tokekar

多智能体强化学习 (MARL) 面临着样本效率低下和泛化能力差的挑战 [1]。这些挑战部分归因于用于学习策略的神经网络缺乏结构或归纳偏差。在多智能体场景中，常见的一种结构形式是对称性。几何深度学习领域已经开发出等变图神经网络 (EGNN)，它们对节点的旋转、平移和反射具有等变性（或对称性）。研究表明，引入等变性可以提高学习效率并降低误差 [2]。本文证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而，我们也发现，将 EGNN 简单地应用于 MARL 会导致早期探索能力差，因为 EGNN 结构存在偏差。为了减轻这种偏差，我们提出了探索增强型等变图神经网络，即 E2GN2。我们使用常见的 MARL 基准测试 MPE 和 SMACv2 将 E2GN2 与其他常见的函数逼近器进行比较。E2GN2 在样本效率方面表现出显著的提升，最终奖励收敛更快，并且在我们的泛化测试中，与标准 GNN 相比，E2GN2 的性能提升了 2 到 5 倍。这些结果为构建更可靠、更有效的复杂多智能体系统解决方案铺平了道路。

发布时间: 10/4/2024

查看原文