arXiv 论文列表

作者: Jie Feng, Yuwei Du, Jie Zhao, Yong Li

arXiv:2408.13986v2 宣告类型: replace-cross 摘要：下一个位置预测在各种实际应用中起着关键作用。最近，由于现有深度学习方法的限制，有人尝试将大型语言模型（LLMs）应用于零样本下一个位置预测任务。然而，他们直接使用LLMs生成最终输出，而不进行系统的设计，这限制了LLMs揭示复杂移动模式的潜力，并低估了它们广泛的全球地理空间知识储备。本文介绍了AgentMove，这是一种系统性代理预测框架，用于实现通用的下一个位置预测。在AgentMove中，我们首先分解了移动预测任务，并设计特定模块来完成它们，包括时空记忆模块用于个体移动模式挖掘，世界知识生成器用于建模城市结构的影响，以及集体知识提取器用于捕捉人群中的共享模式。最后，我们结合三个模块的结果并进行推理步骤以生成最终预测。利用来自两个不同来源的移动数据进行的广泛实验表明，在12个指标中的8个指标中，AgentMove比领先基线高出3.33%到8.57%，并且在各种LLMs作为基础时显示出稳健的预测能力，并且在城市间的地理偏差也较少。我们的代码可在https://github.com/tsinghua-fib-lab/AgentMove获取。

发布时间: 2/11/2025

查看原文

DOMBA: 双模型平衡方法 via 最小边界聚集用于访问控制语言模型

作者: Tom Segal, Asaf Shabtai, Yuval Elovici

arXiv:2408.11121v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）的质量和训练数据的数量对其有用性影响很大。许多组织拥有可以用于训练或微调定制于其特定需求的LLMs的大量数据集。然而，这些数据集通常带有基于用户权限的访问限制，并且通过访问控制机制来实施。在这些数据集上训练LLMs可能暴露出敏感信息给未经授权的用户。防止这种暴露的简单方法是为每个访问级别训练一个单独的模型。然而，这可能会导致具有较低实用性的模型，因为与整个组织数据集相比，每个模型的训练数据量较少。另一种方法是在所有数据上训练一个单一的LLMs，同时限制未经授权信息的暴露。然而，当前用于LLMs的暴露限制方法对于访问受限的数据无效，在这种数据中敏感信息在许多训练示例中频繁出现。我们提出了一种称为DOMBA（双重模型平衡）的简单方法，用于训练和部署LLMs，该方法在提供高实用性和访问控制功能的同时提供安全保障。DOMBA通过“最小边界”平均函数（如调和平均函数）聚合两个模型的概率分布，每个模型分别在具有（可能很多）不同访问级别的文档上进行训练。详细的数学分析和广泛的评估表明，DOMBA可以保护受限信息，同时提供与非安全模型相当的实用性。

发布时间: 2/11/2025

查看原文

从 Transformers 到 SSMs：提炼二次知识到亚二次模型

作者: Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu

arXiv:2408.10189v2 宣布类型: replace-cross 摘要：Transformer架构已成为语言建模等领域的主要范式，但由于它们在自注意力上的二次时间复杂度，在许多推理设置中表现出色。最近提出的亚二次架构，如Mamba，显示出一定的前景，但其预训练使用的计算资源远少于最强的Transformer模型。在本工作中，我们提出了一种方法，能够将预训练的Transformer架构蒸馏为替代架构，如状态空间模型（SSMs）。我们方法的关键思想是，我们可以将Transformer和SSMs视作在令牌序列上应用不同形式的混合矩阵。因此，我们可以逐步将Transformer架构蒸馏为SSMs的不同粒度：首先匹配混合矩阵本身，然后是每个块中的隐藏单元，最后是端到端的预测。我们的方法称为MOHAWK，能够使用仅30亿个令牌蒸馏基于Phi-1.5架构的Mamba-2变体（Phi-Mamba），以及使用50亿个令牌的混合版本（Hybrid Phi-Mamba）。尽管仅使用了通常用于从头训练模型的训练数据不到1%的数据，Phi-Mamba的表现仍然远远优于所有之前的开源非Transformer模型。MOHAWK允许像SSMs这样的模型利用在训练基于Transformer的架构中投资的计算资源，突显出一种新的构建此类模型的途径。

发布时间: 2/11/2025

查看原文

在大型语言模型中保护隐私：当前威胁与解决方案综述

作者: Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, Fabio Massimo Zanzotto, S\'ebastien Brati\`eres, Emanuele Rodol\`a

arXiv:2408.05212v2 宣告类型: 更换交叉引用摘要：大型语言模型（LLMs）代表了人工智能领域的一项重要进步，其应用涉及多个领域。然而，它们在训练中依赖于庞大的互联网数据集，这带来了显著的隐私问题，特别是在关键领域（例如医疗保健）中加剧了这些问题。此外，某些特定应用场景可能需要在私有数据上微调这些模型。本文回顾性地探讨了大型语言模型所面临的隐私威胁，强调了这些模型可能记住和无意中泄露敏感信息的潜在风险。我们通过审查针对LLMs的隐私攻击来探索当前的威胁，并提出了在整个学习管道中集成隐私机制的全面解决方案。这些解决方案涵盖了从匿名化训练数据集到在训练或推理过程中实施差分隐私，以及在训练后进行机器遗忘等方面。我们对现有文献的全面回顾突显了持续存在的挑战、可用工具以及在大型语言模型中保护隐私的未来方向。本文旨在通过提供对隐私保护方法及其在降低风险方面的有效性的深入理解，指导开发更安全和可信赖的AI系统。

发布时间: 2/11/2025

查看原文

具有对模型变化 robustness probsobility 保证的反事实解释

作者: Ignacy St\k{e}pka, Mateusz Lango, Jerzy Stefanowski

arXiv:2408.04842v4 通告类型: replace-cross 摘要：反事实解释（CFEs）指导用户如何调整机器学习模型的输入以实现期望的输出。现有研究主要关注静态场景，但实际应用中通常涉及数据或模型的变化，这可能使先前生成的CFEs失效，使用户引起的输入变化无效。当前解决这些问题的方法通常仅支持特定的模型或更改类型，需要大量的超参数调优，或者无法提供对模型变化下的CFE稳健性的概率保证。本文提出了一种新颖的方法来生成CFEs，为任何模型和更改类型提供了概率保证，并提供了可解释且易于选择的超参数。我们建立了一个理论框架来概率性地定义对模型变化的稳健性，并展示了我们的BetaRCE方法直接源自于此。BetaRCE 是一种后处理方法，与选择的基CFE生成方法一起应用，以增强解释的质量，超越稳健性。它有助于从基解释过渡到具有用户调整概率界线的更稳健的解释。通过与基准方法的实验比较，我们证明BetaRCE 提供了稳健、最有可能且接近基准的反事实解释。

发布时间: 2/11/2025

查看原文

不确定参数环境下的可验证鲁棒策略

作者: Yannik Schnitzer, Alessandro Abate, David Parker

arXiv:2408.03093v4 宣布类型: replace-cross 摘要: 我们提出了一种数据驱动的方法，用于生成在未知随机环境下的可证明鲁棒策略。现有方法可以将单一环境建模为区间马尔可夫决策过程（IMDP），并生成具有大概率近似正确（PAC）保证性能的鲁棒策略。然而，这些方法无法处理潜在环境参数的影响。我们提出了一个基于未知参数分布的参数马尔可夫决策过程（MDP）的框架。我们为由参数引起的未知样本环境的学习和分析。然后的关键挑战是生成结合两种不确定性层次的性能保证：（1）由未知分布的参数引起的不同环境；（2）由IMDP逼近的未知环境。我们介绍了一种基于情景优化的新方法，该方法提供了单一PAC保证，量化了在未见环境中确保指定性能水平的风险水平，以及风险与性能的权衡方法。我们使用多种鲁棒策略生成方法在一系列基准测试上实现并评估了我们的框架。我们展示了我们的方法在高置信度下产生了策略性能的紧界。

发布时间: 2/11/2025

查看原文

开源大语言模型的抗篡改安全保障

作者: Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika

arXiv:2408.00761v4 宣告类型: 重写-交叉摘要：大型语言模型（LLMs）能力的迅速进步引发了对其潜在恶意使用的广泛担忧。开源权重大语言模型带来了独特挑战，因为现有的保护措施对修改模型权重的篡改攻击缺乏韧性。例如，最近的研究已经证明，拒绝和遗忘保护可以通过几次调优步骤被轻易移除。这些脆弱性需要新的方法来确保开源权重大语言模型的安全发布。我们开发了一种称为TAR的方法，将篡改抵抗保护嵌入到开源权重大语言模型中，即使在数百次调优步骤后，对手也无法移除这些保护。在广泛的评估和红队分析中，我们发现该方法极大地提高了篡改抵抗能力的同时保持了良性能力。我们的结果表明，篡改抵抗的进步是可能的，这为提高开源权重大语言模型的安全性和安全性开辟了有希望的新途径。

发布时间: 2/11/2025

查看原文

ADBM：对抗扩散桥模型用于可靠的对抗净化

作者: Xiao Li, Wenxuan Sun, Huanran Chen, Qiongxiu Li, Yining Liu, Yingzhe He, Jie Shi, Xiaolin Hu

arXiv:2408.00315v2 通告类型: replace-cross 摘要: 最近，基于扩散的净化（DiffPure）已被认为是对抗样本的有效防御方法。然而，我们发现直接使用原始预训练的扩散模型进行对抗样本净化的DiffPure存在不足。这是因为噪声净化性能和数据恢复质量之间存在着固有的权衡。此外，现有对DiffPure的评估可靠性令人质疑，因为它们依赖于简单的自适应攻击。在本工作中，我们提出了一种新的对抗扩散桥模型，称为ADBM。ADBM直接从扩散后的对抗样本构建一个反向桥梁回到其原始的干净示例，增强原始扩散模型的净化能力。通过各种场景下的理论分析和实验验证，ADBM已被证明是一种优越且稳健的防御机制，为实际应用提供了显著的前景。

发布时间: 2/11/2025

查看原文

推理时选择性去偏见以增强文本分类模型的公平性

作者: Gleb Kuzmin, Neemesh Yadav, Ivan Smirnov, Timothy Baldwin, Artem Shelmanov

arXiv:2407.19345v3 宣布类型: replace-cross 摘要: 我们提出了选择性去bias——一种在推理时的安全机制，旨在在重训练模型不切实际的场景中，提升模型的整体质量和公平性，特别是在预测性能和公平性方面。该方法借鉴了选择性分类的思路，在推理时，根据其不确定性分数丢弃低质量的预测。在我们的方法中，我们识别出可能存在偏见的模型预测，而不是直接丢弃它们，而是使用LEACE——一种后处理去bias方法——从这些预测中去除偏见。为了选择有问题的预测，我们提出了一种基于KL散度的偏见量化方法，其结果优于标准的不确定性量化方法。实验表明，在基于编码器的分类模型和文本分类数据集上，选择性去bias有助于减少后处理方法与训练时和预处理类别中的去bias技术之间的性能差距。

发布时间: 2/11/2025

查看原文

人们会同意我的看法：探究大语言模型的虚假共识效应

作者: Junhyuk Choi, Yeseon Hong, Bugeun Kim

arXiv:2407.12007v2 通知类型: 替换-交叉摘要：大型语言模型（LLMs）最近在需要通信的交互系统中得到采用。由于模型中的虚假信念可能会损害这些系统的可用性，因此LLMs不应拥有与人类相同的认知偏差。心理学家特别关注虚假一致效应（FCE），这是一种认知偏差，个体高估了其他人与其信仰或行为一致性的情况，因为FCE可以通过引入虚假信念来干扰流畅的沟通。然而，先前的研究对LLMs中的FCE关注不够，需要更多考虑混淆偏差、一般情况和提示变化。因此，在本文中，我们进行了两项研究来探讨LLMs中的FCE现象。在研究1中，我们调查LLMs是否存在FCE。在研究2中，我们探讨了不同提示风格如何影响FCE的展示。通过这些研究的结果，我们发现流行的LLMs存在FCE。此外，结果还指定了与正常使用相比，FCE出现更多或更少的情况。

发布时间: 2/11/2025

查看原文