arXiv 论文列表

作者: Tim Grams, Patrick Betz, Christian Bartelt

arXiv:2501.08925v2 宣布类型: 交叉替换摘要：探索是自主提升和开放性问题解决的关键技能。然而，至今仍不清楚大型语言模型是否能在未知环境中有效地探索状态空间。本文将探索作为唯一目标，要求智能体提供能够提升未来收益的信息。在此框架下，我们认为仅衡量智能体的收益不足以进行公平评价，并基于最优可实现的回报将缺失的奖励分解为探索和exploitation（利用）组件。全面的实验结果显示，大多数模型在探索状态空间方面都遇到困难，不足的探索是不够的。我们观察到参数数量与探索性能之间存在正相关关系，较大的模型显示出更强的能力。此外，我们展示了我们的分解提供了由提示工程驱动的行为差异的见解，为探索性任务中性能的优化提供了有价值的工具。

发布时间: 2/4/2025

查看原文

Gandalf the Red：适应性安全for LLMs

作者: Niklas Pfister, V\'aclav Volhejn, Manuel Knott, Santiago Arias, Julia Bazi\'nska, Mykhailo Bichurin, Alan Commike, Janet Darling, Peter Dienes, Matthew Fiedler, David Haber, Matthias Kraft, Marco Lancini, Max Mathys, Dami\'an Pascual-Ortiz, Jakub Podolak, Adri\`a Romero-L\'opez, Kyriacos Shiarlis, Andreas Signer, Zsolt Terek, Athanasios Theocharis, Daniel Timbrell, Samuel Trautwein, Samuel Watts, Yun-Han Wu, Mateo Rojas-Carulla

arXiv:2501.07927v2 安全类型：替换交叉摘要：当前对大型语言模型（LLM）应用程序中针对提示攻击的防御评估往往忽视了两个关键因素：对手行为的动态性质以及由限制性防御强加给合法用户的可用性惩罚。我们提出了一种动态安全可用威胁模型（D-SEC），该模型明确地将攻击者与合法用户区分开来，模型多步交互，并以可优化的形式表达安全-可用性。我们通过引入Gandalf，一个来自众包的、游戏化的红队平台，来弥补现有评估中的不足，该平台旨在生成现实且自适应的攻击。使用Gandalf，我们收集并发布了279,000个提示攻击的数据集。结合良性用户数据，我们的分析揭示了安全性和可用性之间的相互作用，表明即使不阻止请求，集成在LLM中的防御措施（例如，系统提示）也可能降低可用性。我们证明限制的应用领域、多层次防御和自适应防御是构建安全且有用的LLM应用程序的有效策略。

发布时间: 2/4/2025

查看原文

模拟模型权重以评估样本 utility 用于数据选择

作者: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan

arXiv:2501.06708v2 宣告类型: replace-cross 摘要：基础模型是在大规模网页抓取数据集上训练的，这些数据集通常包含噪声、偏差和无关信息。这促使使用数据选择技术，这些技术可以分为无模型变体——依赖于启发式规则和下游数据集——和基于模型的方法，例如使用影响函数。前者在设计上可能代价高昂，并且有可能引入不必要的依赖性，而后者通常在计算上是不可行的。 instead，我们提出了一种基于模型的有效方法，使用名为Mimic Score的新数据质量度量，它利用参考模型的权重来评估每个样本对训练新模型有用性。它依赖于参考模型诱导的梯度与目标方向的对齐。使用推导出的Mimic Score，我们开发了Grad-Mimic框架，该框架优先选择学习样本，创建有效的过滤器，并自动选择数据。经验上，使用Mimic Score指导训练提高了数据效率，在六个图像数据集上实现了一致的性能提升，并改进了CLIP模型。此外，基于Mimic Score的过滤器改进了现有的过滤方法，例如，在训练更好的CLIP模型时减少了470万样本，同时对训练数据集质量进行了准确的估计。

发布时间: 2/4/2025

查看原文

检测、检索和解释统一：基于知识图和GAT的暴力检测系统

作者: Wen-Dong Jiang, Chih-Yung Chang, Diptendu Sinha Roy

arXiv:2501.06224v2 公告类型: replace-cross 摘要：最近，使用统一多模态模型开发的暴力检测系统已经取得了显著的成功并引起了广泛的关注。然而，这些系统大多面临着两个关键挑战：作为黑盒模型缺乏可解释性以及功能有限，只能提供分类或检索功能。为了解决这些挑战，本文提出了一种新的可解释暴力检测系统，称为三位一体系统（Three-in-One，简称TIO系统）。TIO系统结合了知识图谱（KG）和图注意力网络（GAT）来提供三个核心功能：检测、检索和解释。具体来说，系统处理包含潜在暴力行为的视频帧及其由大语言模型（LLM）生成的文字描述。它使用ImageBind生成高维嵌入以构建知识图谱，使用GAT进行推理，并应用轻量级时间序列模块提取视频嵌入特征。最终步骤是将分类器和检索器连接起来，以实现多功能输出。知识图谱的可解释性使系统能够验证每个输出背后的推理过程。此外，论文还介绍了几种轻量级方法，以减少TIO系统的资源消耗并提高其效率。在XD-Violence和UCF-Crime数据集上的广泛实验验证了所提系统的有效性。一个案例研究进一步揭示了一个有趣的现象：随着旁观者数量的增加，暴力行为的发生率似乎会下降。

发布时间: 2/4/2025

查看原文

在多模型情况下使用多目标优化实现鲁棒因果解释

作者: Keita Kinjo

arXiv:2501.05795v3 宣布类型: 替换-交叉摘要：近年来，机器学习中的可解释性得到了重视。在此背景下，使用实例的方法来解释的反事实解释（CE）引起了关注。然而，当存在多个具有类似准确性的机器学习模型时，人们指出CE并不稳健。这些问题在使用机器学习进行安全决策时非常重要。在本文中，我们提出了一种新的方法，引入了帕累托改进的新视角，并使用多目标优化来生成这种改进。为评估提出的方法，我们在模拟数据和真实数据上进行了实验。结果表明，提出的方法既稳健又实用。这项研究强调了通过应用社会福利的概念来确保决策稳健性的潜力。我们认为，这项研究可以为包括机器学习中的可解释性、基于机器学习的决策和行动计划等领域奠定有价值的基石。

发布时间: 2/4/2025

查看原文

婴儿学习中超越语言输入的隐藏视觉概念发现

作者: Xueyi Ke, Satoshi Tsutsui, Yayun Zhang, Bihan Wen

arXiv:2501.05205v2 通知类型: 替换-交叉摘要：婴儿在获得语言输入之前就能迅速发展出复杂的视觉理解能力。随着计算机视觉试图复制人类视觉系统，理解婴儿的视觉发展可能提供有价值的见解。在这篇论文中，我们进行了一项跨学科研究，探索了以下问题：是否可以构建一个模仿婴儿学习过程的计算模型，能够发展出超出其已听到词汇范围的更广泛的视觉概念，类似于婴儿自然学习的方式？为了探讨这一问题，我们分析了Vong等人最近在Science上发表的一个模型，该模型是基于一个孩子纵向的第一视角图像与转录的父母言语进行训练的。我们提介了一种无需训练的框架，可以通过该框架发现模型内部表示中隐藏的视觉概念神经元。我们的研究发现这些神经元可以对模型原本词汇表外的对象进行分类。此外，我们将婴儿似模型中的视觉表示与当前的计算机视觉模型，如CLIP或ImageNet预训练模型进行比较，凸显了关键的相似性和差异性。最终，我们的工作通过分析基于婴儿视觉和语言输入训练的计算模型的内部表示，将认知科学与计算机视觉领域结合在一起。

发布时间: 2/4/2025

查看原文

关于计算界限和可验证高效视觉自回归模型的标准：一种细粒度复杂性分析

作者: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

arXiv:2501.04377v2 通告类型: replace-cross 摘要: 最近，视觉自回归（$\mathsf{VAR}$）模型在图像生成领域引入了一项革命性的进展，通过像素从粗到细的“下一尺度预测”范式提供了一种可扩展的方法。假设$n$表示$\mathsf{VAR}$模型生成的最后一个VQ码图的高度和宽度，目前最先进的算法在[NeurIPS 2024的Tian, Jiang, Yuan, Peng和Wang的研究]中需要$O(n^{4+o(1)})$的时间，这在计算上是低效的。在这项工作中，我们通过精细复杂度视角分析了$\mathsf{VAR}$模型的计算限制和效率标准。我们的主要贡献是确定了$\mathsf{VAR}$计算可以实现亚二次时间复杂度的条件。我们证明，在精细复杂度理论假设强指数时间假设（$\mathsf{SETH}$）的前提下，$\mathsf{VAR}$模型的亚四次时间算法是不可能的。为了证实我们的理论发现，我们提出了符合所推导标准的有效构造方法，利用低秩近似方法。这项工作从理论角度开始了对$\mathsf{VAR}$模型计算效率的研究。我们的技术将有助于推进$\mathsf{VAR}$框架中可扩展和高效的图像生成。

发布时间: 2/4/2025

查看原文

元表示假设

作者: Zhengpeng Xie, Jiahang Cao, Qiang Zhang, Jianxiong Zhang, Changwei Wang, Renjing Xu

arXiv:2501.02481v3 Announce Type: replace-cross 摘要：人类依赖于对事物的高层次理解，即元表示，来进行抽象推理。在复杂的认知任务中，这些元表示帮助个体从经验中抽象出普遍规则。然而，从高维观测构建这样的元表示仍然是强化学习（RL）代理的一个长期挑战。例如，即使是对同一任务进行了充分训练的代理，也常常无法泛化到任务的细微变化，比如背景颜色的变化，而人类可以轻松应对。在本文中，我们从理论上研究元表示如何贡献于RL代理的泛化能力，证明了从高维观测学习元表示可以增强代理在不同环境下的泛化能力。我们进一步假设，代理之间的深度互学（DML）有助于它们学习捕捉任务本质的元表示。实验证据强烈支持了我们的理论和假设。总体而言，这项工作为深度强化学习的泛化提供了一个新的视角。

发布时间: 2/4/2025

查看原文

可解释的神经ODEs在扰动下基因调控网络发现

作者: Zaikang Lin, Sei Chang, Aaron Zweig, Minseo Kang, Elham Azizi, David A. Knowles

arXiv:2501.02409v2 宣告类型: replace-cross 摘要：现代高通量生物数据集包含成千上万的干扰，为大规模发现代表基因之间调控关系的因果图提供了机会。已经提出了可微因果图形模型，可以从大规模的干预期数据集推断基因调控网络（GRN），并从基因扰动中捕捉因果基因调控关系。然而，现有模型在表达能力和可扩展性方面存在局限性，无法应对如细胞分化等生物学过程的动力学特性。我们提出了一种名为PerturbODE的新框架，该框架结合了生物信息量丰富的神经常微分方程（神经ODEs）来建模在扰动下的细胞状态轨迹，并从神经ODE的参数推导出因果GRN。我们在模拟和实际过表达数据集中展示了PerturbODE在轨迹预测和GRN推断方面的有效性。

发布时间: 2/4/2025

查看原文

主钥匙滤波器假设：深层滤波器是通用的

作者: Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu

arXiv:2412.16751v2 公告类型: 替换-交叉摘要：本文挑战了卷积神经网络(CNN)滤波器在更深的层中变得越来越专业化这一主流观点。受深度可分离卷积神经网络(DS-CNNs)在训练于ImageNet上时出现的可分簇的重复模式的近期观察启发，我们将这一调查扩展到不同的领域和数据集中。我们对DS-CNNs的分析表明，深层滤波器保持了一般性，这与滤波器转变为类特定滤波器的预期转变相矛盾。我们通过迁移学习实验展示了这些滤波器的泛化能力，表明从不同数据集训练的模型中冻结的滤波器表现良好，并且当来源于更大的数据集时，可以进一步改进。我们的研究结果表明，在所有层、领域和架构中，深度可分离卷积学习的空间特征保持了一般性。该研究为神经网络泛化本质提供了新的见解，特别在DS-CNNs中，并对迁移学习和模型设计具有重要意义。

发布时间: 2/4/2025

查看原文