arXiv 论文列表

作者: Wenlun Zhang, Enyan Dai, Kentaro Yoshioka

arXiv:2502.09271v2 宣告类型: replace-cross 摘要: 图神经网络(GNNs)在模型具有图结构的数据方面表现出色，但最近的研究揭示了它们易受对抗攻击的影响。传统的攻击方法依赖于操控原始图或添加链接到人为创造的节点，这些方法在实际应用中往往不切实际。本文介绍了一种新颖的对抗场景，涉及到向GNN系统中注入一个孤立子图，以欺骗链接推荐器和节点分类器。具体来说，链接推荐器被误导提出目标受害节点与子图之间的链接建议，促使用户无意中建立链接，这将降低节点分类准确性，从而实现成功的攻击。为了应对这一问题，我们提出了LiSA框架，该框架采用双代理模型和多级优化来同时满足两个对抗目标。在实际数据集上的广泛实验表明了我们方法的有效性。

发布时间: 2/17/2025

查看原文

神经力场：从少数几个例子中学习通用物理表示

作者: Shiqian Li, Ruihong Shen, Chi Zhang, Yixin Zhu

arXiv:2502.08987v2 宣告类型: 替换-跨版本摘要：物理推理是人类的一种非凡能力，使人们能够从有限的经验中实现快速学习和泛化。尽管当前的AI模型经过了大量训练，但它们仍然难以在泛化方面达到类似的人类水平，尤其是在分布外(OOD)的情况下。这种限制源于它们无法从观察中抽象出核心的物理原理。一个关键挑战是开发能够从少量数据中高效学习和泛化物理动力学的表示方法。我们在此提出了一种名为神经力场(NFF)的建模框架，该框架基于神经常微分方程(NODE)，能够学习可解释的力场表示，并可以通过常微分方程(ODE)求解器高效地整合这些表示来预测对象的轨迹。与现有的依赖于高维潜在空间的方法不同，NFF以可解释的方式捕捉到诸如重力、支持和碰撞等基本物理概念。在两个具有挑战性的物理推理任务上的实验表明，即使仅用少量示例训练，NFF也能实现对未见过场景的强大泛化。这种基于物理的表示法能够通过交互式细化实现高效的正向-反向规划和快速适应。我们的工作表明，在学习系统中融入受物理启发的表示方法，有助于弥合人工物理推理和人类物理推理能力之间的差距。

发布时间: 2/17/2025

查看原文

RTBAS: 防御大语言模型代理面临的提示注入和隐私泄露攻击

作者: Peter Yong Zhong, Siyuan Chen, Ruiqi Wang, McKenna McCall, Ben L. Titzer, Heather Miller, Phillip B. Gibbons

arXiv:2502.08966v2 通知类型: 替换交叉摘要: 工具基智能体系统 (TBAS) 允许语言模型 (LMs) 使用外部工具来完成超出其独立能力的任务，例如搜索网站、预订航班或进行金融交易。然而，这些工具大大增加了提示注入攻击的风险，恶意内容会劫持 LM 智能体以泄露敏感数据或触发有害行动。现有的防御措施（如 OpenAI GPT）要求在每次调用工具前都要进行用户确认，给用户带来了沉重的负担。我们引入了稳健的 TBAS（RTBAS），该系统能够自动检测并执行保持完整性和保密性的工具调用，仅在这些保障不能得到保证时才需要用户确认。RTBAS 适应了 TBAS 带来的独特挑战，采用信息流控制。我们提出了两种新的依赖性筛选器，使用 LM 作为法官和基于注意力的重要度筛选，以克服这些挑战。在 AgentDojo 提示注入基准测试上的实验结果显示，当受到攻击时，RTBAS 能够防止所有针对攻击，且仅在任务实用性上损失 2%，此外的测试进一步证实了其在检测细微和直接隐私泄露方面接近完美性能的能力。

发布时间: 2/17/2025

查看原文

超越单一模型：多代模型在有效基准评估与分析中的核心作用

作者: Wenbo Zhang, Hengrui Cai, Wenyu Chen

arXiv:2502.08943v2 宣告类型：替换交叉摘要：大型语言模型（LLMs）在实际应用中展示了显著的实用性，展现了在自然语言处理和理解方面的出色能力。基准评估对于评估LLMs的能力至关重要，因为它们可以提供对其优势和劣势的全面评估。然而，当前的评估方法经常会忽视LLMs固有的随机性，通过使用确定性生成策略或依赖单一随机样本来进行评估，导致未计及的采样方差和不可靠的基准评分估计。在本文中，我们提出了一种分级统计模型，通过同时考虑基准特性和LLMs的随机性，提供了一个更全面的基准评估过程的表示。我们展示了利用多个生成可以在估计基准评分的准确性上有所改善，并减少方差。我们还引入了$\mathbb P\left(\text{正确}\right)$，这是一个基于正确比例的提示级别难度评分，提供了对单个提示的细微洞察。另外，我们创建了一个数据图，可视化了难度和语义提示，有助于基准构建中的错误检测和质量控制。

发布时间: 2/17/2025

查看原文

基于线性函数逼近的离策$n$步TD学习分析

作者: Han-Dong Lim, Donghwan Lee

arXiv:2502.08941v2 宣告类型: replace-cross 摘要：本文分析了在“致命三角”情景下的多步时差（TD）学习算法，该情景包括线性函数逼近、离策略学习和自举。特别是，我们证明当采样窗口$n$足够大时，$n$步TD学习算法会收敛到一个解。文章分为两部分。在第一部分中，我们全面探讨了它们基于模型的确定性对应算法的基本性质，包括投影值迭代和梯度下降算法，这些算法可以被视为原型确定性算法，其分析在理解和发展其基于模型的强化学习对应算法方面发挥着关键作用。特别是，我们证明当$n$足够大时，这些算法会收敛到有意义的解。基于这些发现，在第二部分中，提出了两种$n$步TD学习算法并进行了分析，这些算法可以被视为基于模型的确定性算法的无模型强化学习对应算法。

发布时间: 2/17/2025

查看原文

通过稀疏机器人驱动实现声波操纵

作者: Tristan Shah, Noam Smilovich, Feruza Amirkulova, Samer Gerges, Stas Tiomkin

arXiv:2502.08784v2 通告类型: 替换-交叉引用摘要：机器人技术、控制和机器学习的Recent进步促进了物体操作这一艰巨领域的进展。这些进步包括，例如，使用深度神经网络来表示机器人传感器部分观测到的动力学，以及有效利用稀疏控制信号进行控制。在本文中，我们探讨了一个更普遍的问题：通过能够通过空间稀疏的执行器影响波的机器人来操控声波，尽管声波是由机器人部分观测到的。这个问题在新人工材料的设计、超声切割工具、能量收集以及其他应用方面具有巨大的潜力。我们开发了一种高效的数据驱动方法，适用于任务需求是在指定区域集中散射的声能，或者抑制它。所提议的方法在解决方案质量和计算复杂性方面优于用于控制由偏微分方程描述的动力学系统的一种最先进的基于学习的方法。此外，在展示的任务上，我们提出的办法与声学研究中的经典半解析方法具有竞争力。我们已将项目代码公开，并提供了一个包含视频演示的网页：https://gladisor.github.io/waves/。

发布时间: 2/17/2025

查看原文

节奏共享：受生物启发的零样本适应与学习神经网络范式

作者: Hoony Kang, Wolfgang Losert

arXiv:2502.08644v3 宣告类型: replace-cross 摘要：大脑可以快速适应新的环境，并从有限的数据中学习，这一可取的特性是人工智能算法难以模仿的。受到神经细胞机械结构中振荡节律的启发，我们开发了一种基于连接强度振荡的学习范式，并将学习与这些振荡的协调联系起来。我们发现，这种范式能够使人工神经网络快速适应和学习。连接振荡可以快速改变协调，赋予网络在无监督的情况下感知细微环境变化的能力。换句话说，网络生成所需的上下文令牌，使其能够作为一个能够预测多种环境动态的一般型人工智能架构运行。振荡还使网络能够外推到从未见过的环境中。这些能力使我们的学习范式成为新型学习和认知模型的强大起点。此外，通过连接协调进行学习与神经网络架构的具体细节无关，因此我们的研究为将快速适应和学习能力引入领先的人工智能模型开启了大门。

发布时间: 2/17/2025

查看原文

基于图的基础模型的推荐系统：一项综述

作者: Bin Wu, Yihang Wang, Yuanhao Zeng, Jiawei Liu, Jiashu Zhao, Cheng Yang, Yawen Li, Long Xia, Dawei Yin, Chuan Shi

arXiv:2502.08346v2 宣告类型: replace-cross 摘要：推荐系统（RS）作为导航海量在线信息的基本工具，深度学习的进步在提升排名准确率方面扮演着越来越重要的角色。在这之中，图神经网络（GNNs）在提取高级结构信息方面表现出色，而大规模语言模型（LLMs）则专门设计用于处理和理解自然语言，使得这两种方法都极具效力并广泛应用。最近的研究重点在于图基础模型（GFMs），它们将GNNs和LLMs的优势结合起来，通过利用基于图的用户-项目关系结构以及文本理解，更高效地建模复杂的RS问题。在这篇综述中，我们通过介绍当前方法的清晰分类、深入探讨方法细节以及突出关键挑战和未来方向，提供了基于GFMs的RS技术的全面概述。通过综合最近的进展，我们旨在为GFMs基推荐系统不断演变的景观提供有价值的见解。

发布时间: 2/17/2025

查看原文

TRISHUL：面向大型VLM基于GUI代理的区域识别与屏幕层级理解

作者: Kunal Singh, Shreyas Singh, Mukund Khanna

arXiv:2502.08226v2 通告类型: replace-cross 摘要: 近期大规模视觉语言模型（LVLMs）的发展使得在各种范式下开发基于LVLM的图形用户界面（GUI）代理成为可能。基于训练的方法，如CogAgent和SeeClick，由于依赖于特定数据集的训练，难以实现跨数据集和跨平台的泛化。通用型的LVLM，如GPT-4V，使用标记集（SoM）进行动作定位，但获取SoM标签需要HTML源代码等元数据，而这些元数据在不同平台上并不一致可用。此外，现有的方法往往专注于单一的GUI任务，而不是实现全面的GUI理解。为了解决这些限制，我们介绍了TRISHUL，这是一种全新的、无需训练的代理框架，旨在增强通用型LVLMs以实现全面的GUI理解。与以往主要关注动作定位（将指令映射到GUI元素）或GUI引用描述（根据位置描述GUI元素）的研究不同，TRISHUL能够无缝集成这两方面。其核心在于层次屏幕解析（HSP）和空间增强元素描述（SEED）模块，这两个模块协同工作，提供了多粒度、空间和语义增强的GUI元素表示。我们的结果显示，TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集上的动作定位性能优越。此外，在GUI引用描述方面，TRISHUL在ScreenPR基准测试中超过了ToL代理，为稳健和适应性强的GUI理解设定了新的标准。

发布时间: 2/17/2025

查看原文

隐式语言模型是RNN：平衡并行化与表达能力

作者: Mark Sch\"one, Babak Rahmani, Heiner Kremer, Fabian Falck, Hitesh Ballani, Jannes Gladrow

arXiv:2502.07827v2 Announce Type: replace-cross 摘要：状态空间模型（SSMs）和变压器主导了语言模型的领域。然而，它们在计算复杂性上被限制在古典递归神经网络（RNNs）之下，限制了它们的表达能力。相比之下，在训练过程中RNNs缺乏并行化能力，提出了并行化与表达能力之间根本性权衡问题。我们提出了一种隐式状态空间模型，该模型通过迭代变换直到收敛到固定点。理论上，我们证明了隐式状态空间模型实现了RNNs的非线性状态转换。实证上，我们发现近似的固定点收敛就足够了，这使得我们可以设计一个大规模可扩展的训练课程，其中保持大部分并行化能力，只需对一小部分标记完全收敛。我们的方法在常规语言上展示了卓越的状态跟踪能力，超过了变压器和SSMs。我们进一步将隐式状态空间模型扩展到自然语言推理任务和大规模语言模型的预训练，达到13亿参数，约2070亿标记，据我们所知，这是迄今为止训练的最大隐式模型。值得注意的是，我们的隐式模型在标准基准测试中优于显式对应的模型。

发布时间: 2/17/2025

查看原文