尽管现代成像技术使我们能够在体内研究两个不同大脑区域之间的连接,但我们仍然难以深入理解解剖结构如何支撑大脑功能以及自发的功能波动如何产生非凡的认知。与此同时,机器学习领域为建立神经影像数据与表型特征之间的非线性映射付出了巨大努力。然而,当前方法缺乏神经科学的见解,给从短暂的神经活动中理解认知行为带来了重大挑战。为了应对这一挑战,我们重点关注结构连接 (SC) 和功能连接 (FC) 的耦合机制,将这种网络神经科学问题转化为高阶拓扑的表达图表示学习问题。具体来说,我们引入了拓扑绕行的概念,来描述 FC 的普遍实例(直接链接)如何通过 SC 物理连接的神经通路(绕行)得到支持,从而形成一个由大脑结构和功能相互作用的循环回路。在机器学习的陈词滥调中,SC-FC 耦合背后的多跳绕行路径使我们能够在 Transformer 中设计一种新颖的多头自注意力机制,以从 SC 和 FC 的配对图中捕获多模态特征表示。综合起来,我们提出了一种受生物启发的深度模型,称为 NeuroPath,从前所未有的神经影像数据集中寻找推定的连接组特征表示,这些特征表示可以插入各种下游应用,例如任务识别和疾病诊断。我们在监督学习和零样本学习下,对包括 HCP 和 UK Biobank 在内的大规模公共数据集评估了 NeuroPath,NeuroPath 取得的最新性能表明其在网络神经科学领域具有巨大潜力。
低秩自适应(LoRA)因其模块化设计和在 Huggingface 等平台上的广泛可用性,已成为微调大型语言模型(LLM)以适应各种领域的一种流行技术。这种模块化特性激发了人们对组合多个 LoRA 以增强 LLM 功能的兴趣。然而,现有的 LoRA 组合方法主要集中在需要额外训练的任务特定自适应上,而当前的模型合并技术往往无法充分利用 LoRA 的模块化特性,导致参数干扰和性能下降。在本文中,我们研究了以更精细的粒度拆解和重新组装多个 LoRA 的可行性,类似于组装乐高积木。我们引入了最小语义单元(MSU)的概念,其中与 LoRA 中每个秩相对应的参数充当独立单元。这些 MSU 表现出置换不变性和连接-求和等价性,从而能够灵活组合以创建新的 LoRA。基于这些见解,我们提出了 LoRA-LEGO 框架。该框架通过将来自不同 LoRA 的 MSU 分组到 $k$ 个簇中来进行秩级参数聚类。每个簇的质心充当代表性 MSU,从而能够组装一个合并后的 LoRA,其秩调整为 $k$。此外,我们应用双重加权策略来优化合并后 LoRA 的规模。跨各种基准的实验表明,我们的方法在 LoRA 合并方面优于现有方法。
联邦学习高度依赖于分布式梯度下降技术。在梯度信息不可用的情况下,需要从零阶信息中估计梯度,这通常涉及沿着各向同性随机方向计算有限差分。这种方法存在着高估计误差,因为在各向同性采样过程中可能会忽略目标景观的几何特征。在这项工作中,我们提出了一种非各向同性采样方法来改进梯度估计过程。我们方法中的梯度是在由解的历史轨迹所跨越的子空间中估计的,旨在鼓励探索有希望的区域,从而提高收敛速度。所提出的方法使用协方差矩阵进行采样,该矩阵是两部分的凸组合。第一部分是一个包含子空间基的薄投影矩阵,旨在提高利用能力。第二部分是历史轨迹。我们在零阶联邦设置中实现了这种方法,并表明收敛速度与现有方法一致,同时在通信或本地计算中没有引入明显的开销。我们通过与几种常用的零阶联邦优化算法进行比较,在几个数值实验中验证了我们提议的有效性。
低秩自适应(LoRA)通过冻结原始权重并仅训练低秩矩阵,在训练方面取得了显著成果,成为LLM的主要微调方法。为了追求更接近全参数训练的性能,一系列LoRA变体应运而生,例如LoRA+、PISSA、Olora和LoRA-GA。然而,这些改进使模型训练的初始设置更加复杂,并增加了初始化时间。更重要的是,它们忽略了原始权重信息的内部交互。为了解决这些问题,我们引入了一种新的理论,“权重引导”,旨在训练过程中通过原始权重持续引导可训练矩阵,以增强权重信息的利用率。基于此理论,我们设计了一种新的PEFT技术,称为Bone(**B**l**o**ck Affi**ne**),它不仅增强了原始权重信息的利用率,而且强调了权重之间的内部联系,从而实现更快的收敛和更好的数据拟合。跨两种不同LLM架构(LLaMA2、RWKV6)和各种参数规模的实验比较表明,Bone结构可以实现快速收敛和优越的数据拟合,而无需复杂的初始化。例如,当在MetaMathQA数据集上微调LLaMA2-7B并在GSM8k和数学基准上进行验证时,Bone分别获得了49.36和8.8的微调分数,分别比PISSA高出5.84%和1.96%。
我们提出了一种名为“块注意力”的注意力机制,旨在解决检索增强生成 (RAG) 场景中推理延迟和成本增加的问题。传统方法通常对整个上下文进行编码。相反,“块注意力”将检索到的文档划分为离散的块,每个块独立计算键值 (KV) 状态,除了最后一个块。在 RAG 场景中,通过将每个段落定义为一个块,“块注意力”使我们能够重复使用之前看到的段落的 KV 状态,从而在推理过程中显著降低延迟和计算开销。“块注意力”的实现包括块分割、位置重新编码以及微调 LLM 以适应“块注意力”机制。在四个 RAG 基准上的实验表明,在块微调之后,“块注意力”模型实现了与自注意力模型相当的性能(Llama3 上为 68.4% 对 67.9%),甚至表现出更优的性能(Mistral 上为 62.8% 对 59.6%)。值得注意的是,“块注意力”显著降低了第一个 token 的时间 (TTFT) 和浮点运算 (FLOPs) 至极低水平。对于总长度为 32K 的输入序列,它只需要 45 毫秒即可输出第一个 token。与自注意力模型相比,时间消耗和相应的 FLOPs 分别降低了 98.7% 和 99.8%。
2022 年 11 月 ChatGPT 的发布引发了人们对训练后阶段的极大兴趣,并涌现出大量新的偏好优化 (PO) 方法。这些方法声称通过与人类成对偏好更好地匹配来实现更高水平的对齐,通常由 LLM 评判者进行评估。在这项工作中,我们试图回答以下问题——LLM 评判者的偏好是否能转化为对齐的其他更具体指标的进步,如果不是,为什么?我们定义了一个具体的对齐指标,并引入了 SOS-Bench(Substance Outweighs Style Benchmark),据我们所知,它是迄今为止最大的标准化、可重复的 LLM 元基准。我们发现 (1) LLM 评判者的偏好与安全、世界知识和指令遵循的具体指标不相关;(2) LLM 评判者存在强大的隐性偏差,优先考虑风格而非真实性和安全性;(3) 训练后的监督微调 (SFT) 阶段,而不是 PO 阶段,对对齐的影响最大,数据扩展和提示多样性是驱动因素。我们的代码库和完整结果可以在 https://github.com/penfever/sos-bench 上找到。
稀疏自动编码器 (SAEs) 已成为将大型语言模型 (LLMs) 的激活分解为人类可解释的潜在变量的一种很有前景的方法。本文提出了两个问题。首先,SAEs 在多大程度上提取了单义且可解释的潜在变量?其次,改变 SAE 的稀疏性或大小在多大程度上影响单义性/可解释性?通过在一个简单的首字母识别任务中研究这些问题,在这个任务中,我们可以完全访问词汇中所有词元的真值标签,我们能够提供比之前调查更详细的信息。至关重要的是,我们发现了一种称为特征吸收的特征分裂问题,其中看似单义的潜在变量在它们应该激发的情况下却未能激发。我们的研究表明,改变 SAE 的大小或稀疏性不足以解决这个问题,并且存在需要解决的更深层的概念问题。
参数高效微调(PEFT)已成为大型语言模型的关键训练策略。然而,它对可训练参数数量的依赖带来了安全风险,例如任务无关的后门。尽管它们对各种任务有严重影响,但在 PEFT 的背景下,还没有有效的防御解决方案能够有效地抵御任务无关的后门。在本研究中,我们介绍了 Obliviate,一种可与 PEFT 集成的后门防御方法。我们开发了两种技术,旨在放大 PEFT 层中的良性神经元,并惩罚触发词的影响。我们对三种主要的 PEFT 架构进行的评估表明,我们的方法可以显着降低最先进的任务无关后门的攻击成功率(83.6%$\downarrow$)。此外,我们的方法对任务特定后门和自适应攻击表现出强大的防御能力。源代码可在 https://github.com/obliviateARR/Obliviate 获取。
大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
冠心病 (CHD) 是一种严重的心脏疾病,因此,早期诊断至关重要,因为它可以改善治疗效果并节省医疗费用。量子计算和机器学习 (ML) 技术的蓬勃发展可能会为 CHD 诊断的性能带来实际改进。量子机器学习 (QML) 由于其更高的性能和能力,在各个学科中引起了极大的兴趣。医疗保健行业的量子飞跃将提高处理能力并优化多种模型。QML 技术有可能预测心脏病并帮助早期检测。为了预测冠心病的风险,本文提出了一种基于 QML 分类器的集成机器学习模型的混合方法。我们的方法凭借其独特的能力来处理多维医疗保健数据,通过在多步推断框架中融合量子和经典 ML 算法,重申了该方法的鲁棒性。心脏病和死亡率的显著上升影响着全球人类健康和全球经济。减少心脏病发病率和死亡率需要早期发现心脏病。在本研究中,混合方法利用具有量子计算能力的技术来解决传统机器学习算法无法解决的复杂问题,并最大限度地减少计算成本。该方法已在树莓派 5 图形处理单元 (GPU) 平台上开发,并在广泛的数据集上进行了测试,该数据集整合了患有 CHD 的患者和健康对照组的临床和影像数据。与经典机器学习模型相比,所提出的混合 QML 模型在 CHD 中使用的准确率、灵敏度、F1 分数和特异性要高得多。