arXiv 论文列表

作者: Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang

在机制可解释性领域，探索语言模型（LMs）中的语言能力一直是核心目标之一。然而，现有的电路分析方法往往无法全面地代表这些模型的全部功能范围，主要原因是忽略了前馈层。此外，从文本中分离出单一语言能力的效应也面临着重大挑战，因为文本本身包含了多个相互交织的能力。为了解决这些问题，我们引入了一个新的概念，即记忆电路，它是一个最小单元，能够完全独立地操控语言模型的记忆读取功能，并精确地将 Transformer 模型分解为一个电路图，该图由连接不同记忆电路的路径集合组成。基于这种分解，我们确定了重要的电路路径，称为技能路径，它们负责三种关键的语言能力，即前一个词元技能、归纳技能和上下文学习（ICL）技能，并利用干预和反事实的因果效应估计来进行分析。我们在各种数据集上的实验结果证实了我们所识别的技能路径与语言能力之间的对应关系，并验证了三个长期存在的假设：1）通过电路解剖可以识别语言能力；2）简单的语言能力存在于浅层，而复杂的语言能力存在于深层；3）复杂的语言能力是在更简单的语言能力的基础上形成的。我们的代码可在以下地址获取：https://github.com/Zodiark-ch/Language-Skill-of-LLMs。

发布时间: 10/3/2024

查看原文

基于样本权重的公平类增量学习

作者: Jaeyoung Park, Minsu Kim, Steven Euijong Whang

模型公平性在可信赖人工智能的类增量学习中变得越来越重要。虽然准确性一直是类增量学习的中心关注点，但公平性却相对研究不足。然而，在训练中简单地使用当前任务的所有样本会导致某些敏感群体（包括类别）的公平灾难性遗忘。我们从理论上分析了，如果当前任务数据的平均梯度向量与敏感群体的平均梯度向量处于“相反方向”，即它们的内积为负，就会发生遗忘。然后，我们提出了一种公平的类增量学习框架，该框架调整当前任务样本的训练权重，以改变平均梯度向量的方向，从而减少表现不佳群体的遗忘并实现公平性。针对各种群体公平性指标，我们制定了优化问题，以最大程度地减少敏感群体的总体损失，同时最大程度地减少它们之间的差异。我们还表明，这些问题可以用线性规划解决，并提出了一种有效的公平感知样本加权（FSW）算法。实验表明，FSW 在真实数据集上比最先进的方法获得了更好的准确性-公平性权衡结果。

发布时间: 10/3/2024

查看原文

Forte：基于表征典型性估计的异常值发现

作者: Debargha Ganguly, Warren Morningstar, Andrew Yu, Vipin Chaudhary

生成模型现在可以生成与用于训练它的真实数据几乎无法区分的逼真合成数据。这比以前的模型有了重大进步，以前的模型可以生成训练数据的合理仿制品，但这些仿制品可以通过人工评估从训练数据中视觉区分出来。最近关于 OOD 检测的研究表明，由于存在似然估计错误、生成过程中的熵以及典型性等问题，生成模型似然性并非最佳的 OOD 检测器。我们推测，生成式 OOD 检测器也失败了，因为它们的模型关注的是像素而不是数据的语义内容，这导致了在近 OOD 情况下出现故障，在近 OOD 情况下，像素可能相似，但信息内容却大不相同。我们假设使用自监督学习器估计典型集可以产生更好的 OOD 检测器。我们引入了一种新方法，该方法利用表示学习和基于流形估计的信息性汇总统计量来解决上述所有问题。我们的方法优于其他无监督方法，并在成熟的具有挑战性的基准测试和新的合成数据检测任务中取得了最先进的性能。

发布时间: 10/3/2024

查看原文

基于LiDAR的3D目标检测中有限数据下预训练模型微调：跨域差距的弥合

作者: Jiyun Jang, Mincheol Chang, Jongwon Park, Jinkyu Kim

基于激光雷达的三维物体检测器已广泛应用于自动驾驶或移动机器人等各种应用中。然而，基于激光雷达的检测器往往难以很好地适应具有不同传感器配置（例如，传感器类型、空间分辨率或视场）和位置偏移的目标域。通常需要在新的设置中收集和标注数据集来减少这种差距，但这通常是昂贵且耗时的。最近的研究表明，可以使用大规模无标签激光雷达帧以自监督方式学习预训练主干。然而，尽管它们具有表现力强的表示，但如果没有来自目标域的大量数据，它们仍然难以很好地泛化。因此，我们提出了一种名为域自适应蒸馏微调（DADT）的新方法，以使用有限的目标数据（大约 100 个激光雷达帧）来适应预训练模型，保留其表示能力并防止其过度拟合。具体来说，我们在师生架构中使用正则化器来对齐预训练模型和微调模型之间的物体级和上下文级表示。我们在驾驶基准（即 Waymo 开放数据集和 KITTI）上的实验证实，我们的方法有效地微调了预训练模型，在准确性方面取得了显著的提升。

发布时间: 10/3/2024

查看原文

重新思考图神经网络的表达能力：从计算模型的角度出发

作者: Guanyu Cui, Zhewei Wei, Hsin-Hao Su

图神经网络 (GNN) 在图机器学习中得到了广泛应用，大量研究集中在它们的表现力上。当前的研究通常通过将 GNN 与 Weisfeiler-Lehman (WL) 测试或经典图算法进行比较来评估其表现力。然而，我们在现有分析中发现了三个关键问题：(1) 一些研究使用预处理来增强表现力，但忽略了其计算成本；(2) 一些研究声称匿名 WL 测试的效力有限，同时使用非匿名特征来增强表现力，造成了不匹配；(3) 一些研究用 CONGEST 模型来描述消息传递 GNN (MPGNN)，但对计算资源做出了不切实际的假设，允许 $\textsf{NP-Complete}$ 问题在 $O(m)$ 深度内解决。我们认为，迫切需要一个定义明确的计算模型作为讨论 GNN 表现力的基础。为了解决这些问题，我们引入了资源受限 CONGEST (RL-CONGEST) 模型，该模型包含可选的预处理和后处理，形成一个用于分析 GNN 表现力的框架。我们的框架阐明了计算方面，包括 WL 测试中哈希函数的计算难度以及虚拟节点在减少网络容量方面的作用。此外，我们建议高阶 GNN 对应于一阶模型检验问题，为其表现力提供了新的见解。

发布时间: 10/3/2024

查看原文

基于情感增强嵌入的 LLM 情感感知响应生成

作者: Abdur Rasool, Muhammad Irfan Shahzad, Hafsa Aslam, Vincent Chan

在自动聊天机器人辅助的心理治疗会话中，需要同理心和连贯的回应。本研究旨在解决在精神病学应用中增强大型语言模型（LLM）的情感和语境理解的挑战。我们引入了一个新框架，该框架将多个情感词典（包括 NRC 情感词典、VADER、WordNet 和 SentiWordNet）与最先进的 LLM（如 LLAMA 2、Flan-T5、ChatGPT 3.0 和 ChatGPT 4.0）相结合。主要数据集包含来自咨询和心理治疗数据库的超过 2000 个治疗会话记录，涵盖了关于焦虑、抑郁、创伤和成瘾的讨论。我们将记录分割成更小的片段，并用词汇特征增强它们，并使用 BERT、GPT-3 和 RoBERTa 计算嵌入，以捕捉语义和情感的细微差别。这些嵌入存储在 FAISS 向量数据库中，能够根据余弦相似度进行高效的相似性搜索和聚类。在用户查询时，检索最相关的片段并将其作为上下文提供给 LLM，显著提高了模型生成同理心和上下文相关的回应的能力。实验评估表明，结合情感词典可以提高同理心、连贯性、信息量和流畅性得分。我们的研究结果突出了情感嵌入在提高 LLM 用于心理治疗的性能中的关键作用。

发布时间: 10/3/2024

查看原文

面向任务微调的推测性核心集选择

作者: Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Chao Shen, Tianlin Li, Weipeng Jiang, Yang Liu

针对特定任务的微调对于大型语言模型 (LLM) 的部署至关重要，但它需要大量的计算资源和时间。现有的解决方案提出了核心集选择方法来提高数据效率并减少模型训练开销，但它们仍然存在局限性：1) 在高修剪率下忽略了有价值的样本，这会降低核心集的性能。2) 在核心集选择期间需要很高的时间开销来微调和评估目标 LLM。在本文中，我们介绍了 STAFF，一种推测性核心集选择方法。STAFF 利用与目标 LLM 同族的小模型来有效地估计数据分数，然后在目标 LLM 上验证这些分数，以便准确地识别和分配更多选择预算到重要区域，同时保持对容易区域的覆盖。我们在三个 LLM 和三个下游任务上评估了 STAFF，结果表明 STAFF 将 SOTA 方法的性能提高了高达 54.3%，并在不同的修剪率下将选择开销降低了高达 70.5%。此外，我们观察到，STAFF 在低修剪率（即 20%）下选择的核心集甚至可以获得比完整数据集更好的微调性能。

发布时间: 10/3/2024

查看原文

深度遗忘：机器遗忘基准测试

作者: Xavier F. Cadet, Anastasia Borovykh, Mohammad Malekzadeh, Sara Ahmadi-Abhari, Hamed Haddadi

机器遗忘学习（MU）旨在从训练好的机器学习模型的可学习参数中移除特定数据点的影响。鉴于部署模型中的数据隐私要求、可信度和安全性，这是一种至关重要的能力。对于深度神经网络（DNN），例如卷积网络或视觉转换器，MU 尤其具有挑战性，因为这些 DNN 往往会记忆其训练数据集的很大一部分。然而，该领域缺乏对 DNN 的 MU 方法成功率的严格而多方面的研究。在本文中，我们研究了 18 种最先进的 MU 方法，涵盖各种基准数据集和模型，每次评估都进行了 10 次不同的初始化，这是一项全面的评估，涉及超过 10 万个模型的 MU。我们表明，在适当的超参数下，掩蔽小梯度 (MSG) 和卷积转置 (CT) 在不同模型、数据集和初始化方面，在模型准确率和运行时效率方面始终表现更好，这通过基于群体的成员推理攻击 (MIA) 和每样本遗忘可能性比攻击 (U-LiRA) 进行评估。此外，我们的基准测试强调了一个事实，即仅将 MU 方法与常用的基线进行比较，例如梯度上升 (GA) 或连续随机重标记 (SRL)，是不够的，我们需要更好的基线，例如负梯度加 (NG+)，并选择合适的超参数。

发布时间: 10/3/2024

查看原文

基于Transformer的上下文线性回归处理内生性问题

作者: Haodong Liang, Krishnakumar Balasubramanian, Lifeng Lai

我们探索了 Transformer 在解决上下文线性回归中的内生性问题的能力。我们的主要发现是，Transformer 本身拥有利用工具变量 (IV) 有效处理内生性的机制。首先，我们证明了 Transformer 架构可以模拟梯度下降双层优化过程，该过程以指数速度收敛到广泛使用的两阶段最小二乘 (2SLS) 解决方案。接下来，我们提出了一种上下文预训练方案，并提供了理论保证，表明预训练损失的全局最小化器可以实现较小的过剩损失。我们广泛的实验验证了这些理论发现，表明在存在内生性的情况下，经过训练的 Transformer 比 2SLS 方法提供了更稳健和可靠的上下文预测和系数估计。

发布时间: 10/3/2024

查看原文

HelpSteer2-偏好：用偏好补充评分

作者: Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong

奖励模型对于使模型符合指令至关重要，通常遵循两种流行范式之一进行训练：Bradley-Terry 风格或回归风格。然而，缺乏证据表明在数据充分匹配的情况下，一种方法优于另一种。这主要是因为这些方法需要以不同（但互不兼容）的格式收集数据，这意味着现有公共数据集中没有充分匹配的数据。为了解决这个问题，我们在 HelpSteer2 数据集中发布了偏好注释（专为 Bradley-Terry 训练设计），以补充现有的评分（专为回归风格训练设计）。为了提高数据可解释性，偏好注释附带了人工编写的理由。利用这些数据，我们首次对数据充分匹配的情况下 Bradley-Terry 和回归模型进行了正面比较。基于这种比较得出的见解，我们提出了一种结合 Bradley-Terry 和回归奖励建模的新方法。使用这种方法调优的 Llama-3.1-70B-Instruct 模型在 RewardBench 上得分 94.1，截至 2024 年 10 月 1 日，在 140 多个奖励模型中排名第一。我们还展示了这种奖励模型在 RLHF 中使模型符合指令的有效性。我们将此数据集（CC-BY-4.0 许可证）开源至 https://huggingface.co/datasets/nvidia/HelpSteer2，并将训练后的奖励模型公开发布至 https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward。

发布时间: 10/3/2024

查看原文