arXiv 论文列表

作者: Ke Alexander Wang, Jiaxin Shi, Emily B. Fox

arXiv:2501.12352v3 宣告类型: replace-cross 摘要：序列模型是现代深度学习的核心。然而，快速的发展产生了许多看似无关的架构，如变压器和循环替代模型。在本文中，我们提出了一种统一的框架来理解并推导这些序列模型，该框架受到关联回忆经验重要性的启发，这是检索相关上下文令牌的能力。我们将关联回忆形式化为两步过程：记忆和检索，将记忆形式化为回归问题。能够结合这两步的层通过“测试时回归”其输入令牌的方式执行关联回忆。包含线性注意力、状态空间模型、快速权重程序员、在线学习器和 softmax 注意力在内的知名层作为由三种设计选择定义的特殊情况出现：回归权重、回归函数类和测试时优化算法。我们的方法澄清了线性注意力如何未能捕捉到令牌间相关性，并为 softmax 注意力中查询键规范化的经验有效性提供了数学上的解释。此外，它揭示了设计空间中的未开发领域，我们利用这些领域来推导出 softmax 注意力的新颖的高阶推广。除了统一之外，我们的工作还将序列建模与具有丰富文献的经典回归方法领域联系起来，为开发更强大和理论上有原则的架构铺平了道路。

发布时间: 5/5/2025

查看原文

自发话题变化的下一个词预测中的自注意力动态

作者: Mumin Jia, Jairo Diaz-Rodriguez

arXiv:2501.06382v3 通知类型: replace-cross 摘要：人的认知过程中断是由情感、上下文或联想线索引发的突然、自发的主题转换，这种现象在神经科学中被称为自发思维。相比之下，基于自我注意的模型依赖于输入的结构化模式来预测下一个令牌，缺乏自发性。鉴于这一区别，我们描述了自我注意架构中的自发主题变化，揭示了它们与自发人类思维的相似性和差异性。首先，我们通过定义主题为Token Priority Graphs (TPGs)集，建立在简化的一层自我注意模型下得出理论结果。具体来说，我们证明了以下几点：(1) 模型保持与输入话题相关的令牌的优先顺序；(2) 只有当较低优先级的令牌数量超过所有较高优先级的输入话题令牌时，才会发生自发的主题变化；(3) 与人类认知不同，上下文长度越长或输入话题越模糊，自发变化的可能性越低。其次，我们通过实验证明这些动态在现代最先进的LLM中仍然存在，突显了人类认知与AI行为在自发主题变化方面的基本差异。据我们所知，没有先前的研究在这方面如此紧密地关注人类思维。

发布时间: 5/5/2025

查看原文

ICLR: 上下文学习表示

作者: Core Francisco Park, Andrew Lee, Ekdeep Singh Lubana, Yongyi Yang, Maya Okawa, Kento Nishi, Martin Wattenberg, Hidenori Tanaka

arXiv:2501.00070v2 公告类型：替代-交叉摘要：最近的研究表明，预训练数据规定的语义影响大型语言模型（LLM）中不同概念表示的组织方式。然而，考虑到LLM的开放性，例如它们的能力——在上下文中的学习，我们可以问这些模型是否会改变预训练语义以采纳上下文指定的替代语义。具体来说，如果我们在上下文中提供例子，其中某个概念的作用与预训练数据所建议的作用不同，模型是否会按照这些新颖的语义重新组织其表示？为了回答这个问题，我们从概念角色语义理论中获得灵感，定义了一个“图追踪”任务，其中图的节点通过在训练期间看到的概念（如苹果、鸟等）进行引用，并根据某种预定义结构（如正方形网格）定义图的连接性。给定表示图上随机游走痕迹的样本，我们分析模型的中间表示，并发现随着上下文的扩展，模型从预训练语义表示突然重新组织成与图结构对齐的上下文指定表示。此外，我们发现当引用概念在其语义上存在关联（如周一、周二等）时，虽然上下文指定的图结构仍然存在于表示中，但无法主导预训练结构。为了解释这些结果，我们将我们的任务类比为预定义图形拓扑的能最化过程，提供了隐含优化过程以推理上下文指定语义的证据。总体而言，我们的发现表明，扩大上下文规模可以灵活地重新组织模型表示，可能解锁新的功能。

发布时间: 5/5/2025

查看原文

DriveGPT：扩展自回归行为模型用于驾驶

作者: Xin Huang, Eric M. Wolff, Paul Vernaza, Tung Phan-Minh, Hongge Chen, David S. Hayden, Mark Edmonds, Brian Pierce, Xinxin Chen, Pratik Elias Jacob, Xiaobai Chen, Chingiz Tairbekov, Pratik Agarwal, Tianshi Gao, Yuning Chai, Siddhartha Srinivasa

arXiv:2412.14415v3 宣告类型: replace-cross 摘要：我们提出了一种用于自动驾驶的可扩展行为模型——DriveGPT。我们将驾驶建模为一个序列决策任务，并学习一个变换器模型，以自回归的方式预测未来代理状态作为 tokens。我们通过多个数量级扩大模型参数和训练数据，从而能够在数据集规模、模型参数和计算资源方面探索模型的扩展性能。我们通过定量指标和定性示例，在规划任务的不同尺度下评估了DriveGPT，在复杂现实场景的闭环驾驶中也进行了评估。在一项单独的预测任务中，DriveGPT 超越了最先进的基线方法，并通过在大规模数据集上进行预训练表现出改进的性能，进一步验证了数据扩大的好处。

发布时间: 5/5/2025

查看原文

AutoPrep：多代理框架下的自然语言问题感知数据准备

作者: Meihao Fan, Ju Fan, Nan Tang, Lei Cao, Guoliang Li, Xiaoyong Du

arXiv:2412.10422v3 宣布类型：替换交叉摘要：关于表格的自然语言（NL）问题解答，即表格问答（TQA），是至关重要的，因为它使用户能够快速而有效地从结构化数据中提取有意义的见解，从而有效地弥合了人类语言与机器可读格式之间的差距。许多这样的表格源于网络来源或现实世界场景，这要求进行细致的数据准备（或数据准备）以确保准确的回答。然而，为NL问题准备这样的表格引入了新的要求，这些要求超越了传统的数据准备。这种问题敏感的数据准备涉及如列推导和针对特定问题的过滤等特定任务，以及问题敏感的价值归一化或转换，突显了在这一背景下需要更细致方法的需求。由于上述每个任务都是独特的，单一模型（或代理）可能无法在所有场景中有效工作。在本文中，我们提出了AutoPrep，这是一种基于大型语言模型（LLM）的多代理框架，利用多个代理的优势，每个代理专长于某种类型的数据准备，从而确保更准确和上下文相关性的回答。给定一个针对表格的NL问题，AutoPrep 通过三个关键组件执行数据准备。规划师：确定一种逻辑计划，概述一系列高级操作的顺序。程序员：将该逻辑计划转换为物理计划，通过生成相应的低级代码。执行器：执行生成的代码以处理表格。为了支持这种多代理框架，我们设计了一种新颖的Chain-of-Clauses 原理推理机制，用于高级操作建议，以及用于低级代码生成的工具增强方法……

发布时间: 5/5/2025

查看原文

当每一个-token 都重要：低资源语言模型的最优分割

作者: Bharath Raj, Garvit Suri, Vikrant Dewangan, Raghav Sonavane

arXiv:2412.06926v5 公告类型: 替换-交叉摘要: 传统的贪婪分词方法一直是自然语言处理（NLP）中的一个关键步骤，影响着文本如何转换为标记，直接影响模型性能。虽然字节对编码（BPE）等子词分词器被广泛使用，但对于不同规模的模型和不同语言，它们的最优性仍然存在疑问。在本文中，我们通过广泛的实验表明，最优的BPE配置在分词计数上显著少于贪婪分割，减少了标记数量，并在标记节省百分比和性能方面产生了效益，尤其是在小型模型中。我们在生成和分类等各种内在和外在任务中评估了分词性能。我们的发现表明，压缩优化的分词策略可能为多语言和低资源语言应用提供显著优势，这为未来的研究和包容性NLP指明了一个有前景的方向。

发布时间: 5/5/2025

查看原文

远离危害：一种应对视觉语言模型囚笼攻击的自适应防御方法

作者: Han Wang, Gang Wang, Huan Zhang

arXiv:2411.16721v3 宣告类型: replace-cross 摘要：视觉语言模型(VLMs)在遭受恶意攻击时可能会生成意外和有害的内容，特别是因为它们的视觉能力带来了新的安全隐患。现有的防护措施，如输入预处理、对抗训练和基于响应评估的方法，经常由于成本高而不适用于实际部署。为了应对这一挑战，我们提出了ASTRA，这是一种通过适应性控制模型远离恶意特征方向来抵御VLM攻击的高效且有效的防护措施。我们的关键步骤包括找到可以转移的控制向量，代表有害响应的方向，并在推理时将这些方向进行适应性激活控制以去除它们。为了创建有效的控制向量，我们随机删除攻击图像中的视觉标记，并确定那些与突破（jailbreaks）关联最紧密的标记。然后使用这些标记构建控制向量。在推理过程中，我们执行适应性控制方法，即控制向量和校准激活之间的投影，这在对良性输入影响甚微的情况下，能强有力地避免在恶意输入下产生有害输出。在多个模型和基准上的广泛实验展示了我们在缓解突破风险方面具有最先进的性能和高效率。此外，ASTRA表现出良好的转移性能，能够抵御未见过的攻击（例如，基于结构的攻击、基于扰动的攻击（包括投影梯度下降变体）和纯文本攻击）。我们的代码可在 \url{https://github.com/ASTRAL-Group/ASTRA} 获取。

发布时间: 5/5/2025

查看原文

高度：针对拥挤和受限环境中的机器人导航的异质交互图变换器

作者: Shuijing Liu, Haochen Xia, Fatemeh Cheraghi Pouria, Kaiwen Hong, Neeloy Chakraborty, Zichao Hu, Joydeep Biswas, Katherine Driggs-Campbell

arXiv:2411.12150v2 宣布类型: 替换-交叉摘要: 我们研究了在拥挤且具有互动性的人群中考虑环境约束（如走廊和家具）的机器人导航问题。之前的方法未能考虑到所有类型的行为体与障碍物之间的相互作用，导致机器人路径存在安全隐患且效率低下。在这篇文章中，我们利用crowded和受限场景的图表示，并提出了一个结构化框架来通过深度强化学习学习机器人的导航策略。我们首先将环境各个组件的表示进行分割，并提出了一种异质时空（st）图来建模人类、机器人和障碍物之间不同的相互作用。基于这种异质st图，我们提出了HEIGHT，一个新颖的导航策略网络架构，通过空间和时间来捕捉实体之间的异质相互作用。HEIGHT利用注意力机制来优先考虑重要的相互作用，并利用循环网络来跟踪随着时间变化的动态场景，促使机器人能够适应性地避免碰撞。通过广泛的模拟和现实世界实验，我们展示在具有挑战性的导航场景中，HEIGHT比最先进的基线具有更高的成功性和效率。此外，我们展示了当人群中的人和障碍物密度发生变化时，我们的管道具有比之前的工作更好的零样本泛化能力。更多视频可访问 https://sites.google.com/view/crowdnav-height/home。

发布时间: 5/5/2025

查看原文

通过学习得到的辅助部件来解决实际硬件上的难量子问题的强化学习

作者: Akash Kundu, Leopoldo Sarra

arXiv:2411.00230v2 宣告类型: replace-cross 摘要：设计特定任务的量子电路颇具挑战性，因为状态空间随其指数增长。我们引入了一种名为Gadget强化学习（GRL）的方法，将强化学习与程序合成结合，以自动生成和整合复合门（小器件）到动作空间中。这增强了参数化量子电路（PQCs）对复杂任务（如近似量子哈密顿量的基态，这是一个NP难问题）的探索能力。我们使用典型的计算预算（例如，2-3天的GPU运行时间）评估了GRL在横向场伊辛模型上的性能。结果显示，GRL在准确度、硬件兼容性和可扩展性方面均有所改进。GRL在问题规模和复杂性增加的情况下仍能表现出稳健的性能，即便是在计算资源受限的情况下。通过集成小器件提取，GRL有助于发现针对特定硬件的可重用电路组件，从而弥合算法设计与实际实施之间的差距。这使GRL成为一个适用于硬件特定优化和变分量子算法的多功能框架。相关代码可从以下链接获取：https://github.com/Aqasch/Gadget_RL

发布时间: 5/5/2025

查看原文

代理反馈环模型改进推荐和用户模拟

作者: Shihao Cai, Jizhi Zhang, Keqin Bao, Chongming Gao, Qifan Wang, Fuli Feng, Xiangnan He

arXiv:2410.20027v2 公告类型: replace-cross 摘要: 由于大型语言模型代理具有广泛的知识和强大的规划能力，它们越来越多地被应用于推荐领域。虽然之前的研究所主要集中在增强推荐代理或用户代理中的某一个，但两者之间的协作互动往往被忽视。为此，我们提出了一种新的框架，强调反馈循环过程，以促进推荐代理和用户代理之间的合作。具体来说，推荐代理通过分析用户代理对项目推荐的反馈来细化其对用户偏好的理解。相反，用户代理基于推荐代理提供的项目和推荐理由，进一步识别潜在的用户兴趣。这一迭代过程增强了两个代理推断用户行为的能力，使项目推荐更加有效，用户模拟也更为准确。三项数据集上的实验表明，代理反馈循环的有效性：与单独的推荐代理相比，代理反馈循环平均提高了11.52%；与单独的用户代理相比，则提高了21.12%。此外，结果表明，与真实世界的反馈循环通常会加剧的流行度和位置偏差不同，代理反馈循环并没有放大这些偏差，突显了其鲁棒性。源代码可在 https://github.com/Lanyu0303/AFL 获取。

发布时间: 5/5/2025

查看原文