LLM2D

arXiv 论文列表

作者: Benjamin Ellenberger, Paul Haider, Jakob Jordan, Kevin Max, Ismael Jaras, Laura Kriener, Federico Benitez, Mihai A. Petrovici
arXiv:2403.16933v3 公告类型: replace-cross 摘要:物理神经网络中的神经元,受空间-时间局部性约束的束缚,如何执行高效的功劳归属(credit assignment)问题,很大程度上仍然是一个开放的问题。在机器学习中,答案几乎是通过空间和时间的误差反向传播算法给出的。然而,该算法众所周知地依赖于生物上不可靠的假设,特别是在空间-时间(非)局部性方面。如实时递归学习这样的替代前向传播模型仅部分解决了局部性问题,但仅在因存储需求过高的可扩展性问题上付出了代价。我们引入了广义潜均衡(Generalized Latent Equilibrium,GLE)计算框架,以在物理动态神经网络中实现全空间-时间局部性功劳归属。我们首先基于神经元本地差异定义了一种能量,从这种能量出发,我们推导了神经元动力学通过稳态获得,并通过梯度下降获得参数动力学。由此产生的动力学可以解释为在具有连续时间神经元动力学和持续局部突触可塑性的深层皮层网络中,对空间和时间误差反向传播的实时、生物上可靠的近似。特别地,GLE 利用了树突树的形态学,以使单个神经元能够存储和处理更复杂的信息,并且生物神经元能够根据膜电位相位调整其输出速率,这是信息传播两个方向上都必不可少的功能。对于前向计算,它使得时连续输入到神经元空间的映射成为可能,有效地执行了空间-时间卷积。对于后向计算,它允许反馈信号的时序反转,从而近似出用于有用地参数更新所需的伴随变量。
发布时间: 5/6/2025
查看原文
作者: Hao Chen, Zihan Wang, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj, Jindong Wang
arXiv:2403.06869v3 宣布类型: 替换-交叉 摘要:基础模型通常在大规模数据集上进行预训练,然后通过调整适应下游任务。然而,这些大规模预训练数据集往往不可获取或处理成本高昂,其中可能包含标签噪声,这可能会不利地影响模型的泛化能力并带来意想不到的风险。本文首次全面理解并分析了预训练数据集中的噪声本质,并有效减轻其对下游任务的影响。具体来说,通过在合成的带有噪声ImageNet-1K、YFCC15M和CC12M数据集上进行全面的全监督和图像-文本对比预训练实验,我们证明,在领域内(ID)任务中,轻微的预训练噪声可以提升性能,这是因为训练数据和测试数据具有相似的分布;而在领域外(OOD)任务中,训练数据和测试数据分布差异显著时,轻微的预训练噪声则会恶化性能。这些观察结果不受预训练数据集规模、预训练噪声类型、模型架构、预训练目标、下游调整方法和下游应用的影响。我们实验证实,这是因为预训练噪声以不同的方式重塑了特征空间。然后,我们提出了一种调整方法(NMTune),通过对特征空间进行仿射调整来减轻噪声的恶性影响并提高泛化能力,该方法适用于参数高效调整和黑盒调整方式。此外,我们还在包括API在内的流行视觉和语言模型上进行了广泛的实验,这些模型在现实中的噪声数据上进行了监督和自我监督预训练以进行评估。我们的分析和结果证明了这一新颖且基本的研究方向的重要性,我们将其称为扰动模型学习。
发布时间: 5/6/2025
查看原文
作者: Chen Xu, Tian Lan, Yu Ji, Changlong Yu, Wei Wang, Jun Gao, Qunxi Dong, Kun Qian, Piji Li, Wei Bi, Bin Hu
arXiv:2403.01954v4 宣布类型: replace-cross 摘要:受限解码方法旨在控制预训练的大语言模型(LLMs 或者 PLMs)在推理时生成的文本的意义或风格,以满足各种任务的需求。然而,这些方法往往通过贪婪地和明确地选择目标来引导可能的延续。尽管满足任务要求,这些方法可能会忽略人类在追求这些目标时会隐含遵循的一些普遍和自然的逻辑。受到认知二过程理论的启发,本文提出了一种新型解码框架 DECIDER,在该框架中,基础的大语言模型配备了功能完备一阶逻辑(FOL)推理器来表达和评估规则,并结合一个决策函数来合并两个系统的输出以引导生成。与之前的受限解码不同,DECIDER将对特定目标词的鼓励转变为满足若干高层规则的所有词,使我们能够程序化地将我们的逻辑集成到大语言模型中。在 CommonGen 和 PersonaChat 上的实验表明,DECIDER能够更像人类和更受到逻辑控制的方式引导大语言模型遵循给定的 FOL 规则。
发布时间: 5/6/2025
查看原文
作者: Bangchao Deng, Bingqing Qu, Pengyang Wang, Dingqi Yang, Benjamin Fankhauser, Philippe Cudre-Mauroux
arXiv:2402.16310v4 宣布类型: replace-cross 摘要:基于历史用户移动轨迹的位置预测根据用户的位置来预测用户的位置。为了解决真实世界用户移动轨迹的固有稀疏性问题,时空上下文已被证明是非常有用的。现有解决方案主要通过将移动轨迹中的位置之间的时空距离作为附加输入提供给递归神经网络(RNN),或者通过利用这些距离来搜索预测中的信息性过去隐藏状态。然而,基于距离的方法无法捕获人类移动的时间变化规律性,例如,人类的移动在早晨往往比其他时间段更加规律;这表明实际的时间戳除了时间距离外也有其用处。在此背景下,我们提出了REPLAY,一种学习捕获位置预测中时间变化规律性的通用RNN架构。具体而言,REPLAY 不仅利用稀疏轨迹中的时空距离来搜索信息性过去的隐藏状态,还通过使用针对特定时间戳可学习带宽的高斯加权平均来融入平滑的时间戳嵌入,从而灵活适应不同时间戳的不同强度的时间规律性。我们全面的评估在两个真实世界数据集上将REPLAY与多种最先进的技术进行比较。结果表明,在位置预测任务中,REPLAY 一致且显著优于最先进的方法,提高了7.7%-10.5%的性能,带宽揭示了时间变化规律性的有趣模式。
发布时间: 5/6/2025
查看原文
arXiv:2402.15290v4 宣告类型: replace-cross 摘要:现有模型在建模长序列时难以在性能和计算效率之间取得平衡。尽管状态空间模型(SSM)在处理长序列任务方面取得了显著的成功,但它仍然面临着参数数量庞大的问题。为了进一步提高SSM的效率,我们提出了一种基于多输入多输出SSM的新状态空间层,称为高效状态空间模型(eSSM)。我们的eSSM基于多输入多输出(MIMO)SSM的卷积表示构建。我们提出了一系列有效的策略来提高计算效率。首先,系统矩阵的对角化将原始系统解耦。然后,基于快速傅里叶变换的快速张量卷积也被提出。此外,状态空间模型(SSM)的块对角化进一步减少了模型参数,并提高了模型的灵活性。广泛实验结果表明,所提出模型在多个数据库上的性能与当前最佳模型(如S4)相当,并且优于Transformer和LSTM。在模型效率基准测试中,eSSM的参数量仅为LSTM的12.89%和Mamba的13.24%。eSSM的训练速度分别比LSTM快3.94倍和比Mamba快1.35倍。代码可在以下链接获取:\href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}。
发布时间: 5/6/2025
查看原文
作者: Yuecheng Li, Lele Fu, Tong Wang, Jian Lou, Bin Chen, Lei Yang, Jian Shen, Zibin Zheng, Chuan Chen
arXiv:2402.07002v2 宣传类型:替换交叉 摘要:为了防止用户数据的隐私泄露,差分隐私在联邦学习中广泛应用,但这也并非没有代价。噪声的随机添加会破坏模型的语义完整性,并且这种干扰会随着通信轮次的增加而累积。在本文中,我们介绍了一种具有严格隐私保证的新型联邦学习框架,名为FedCEO,旨在通过让客户端“互相协作”来在模型效用和用户隐私之间寻求平衡。具体来说,我们在服务器端对堆叠的本地模型参数执行高效的张量低秩proximal优化,展示了其在频谱空间中灵活截断高频分量的能力。这种能力意味着我们的FedCEO可以通过平滑全局语义空间来有效恢复不同隐私设置和连续训练过程中的受损语义信息。此外,我们通过输入维度$d$的$\sqrt{d}$级提高了当前最先进的效用-隐私折衷边界。我们通过在代表性数据集上进行实验来验证我们的理论结果,并在不同的隐私设置下观察到显著的性能提升和严格的隐私保证。代码可在https://github.com/6lyc/FedCEO_Collaborate-with-Each-Other获得。
发布时间: 5/6/2025
查看原文
作者: Yu Zhang, Mei Di, Haozheng Luo, Chenwei Xu, Richard Tzong-Han Tsai
arXiv:2402.01685v3 宣告类型: replace-cross 摘要:我们引入了一种用于大规模表格数据模式匹配(SM)的独特方法,名为SMUTF(基于生成标签和混合特征的模式匹配),假设有监督学习在开放域任务中不会影响性能,从而使得跨域匹配变得有效。该系统独特地结合了基于规则的特征工程、预训练语言模型和生成大型语言模型。受人道主义交换语言的启发,我们创新地为每一列数据部署了“生成标签”,从而增强了模式匹配的有效性。SMUTF具有广泛的适应性,能够无缝与任何现有的预训练嵌入、分类方法和生成模型配合使用。 由于缺乏广泛的公开可用的数据集来支持SM任务,我们创建并开源了从公共人道主义数据中提取的HDXSM数据集。我们认为这是目前最全面的SM数据集。在各种公开数据集和新型HDXSM数据集的评估中,SMUTF展现了卓越的表现,在准确性和效率上超越了现有的顶级模型,并使F1分数提高了11.84%,ROC AUC分数提高了5.08%。代码可在https://github.com/fireindark707/Python-Schema-Matching获得。
发布时间: 5/6/2025
查看原文
作者: Mengjia Niu, Xiaoyu He, Petr Ry\v{s}av\'y, Quan Zhou, Jakub Marecek
arXiv:2311.02181v3 宣告类型: replace-cross 摘要:时间序列聚类是一个广泛研究的问题,其应用范围从定量的个性化代谢模型(基于代谢物浓度)到量子信息理论中的状态识别。我们考虑了一个变体,在给定一组轨迹和一个部分数量的情况下,同时对轨迹集进行分割,并为每个部分学习线性动态系统(LDS)模型,以最小化所有模型的最大误差。我们提出了全局收敛方法和EM启发式算法,并伴有鼓舞人心的计算结果。该方法的关键亮点在于它不需要预先定义隐藏状态维度,而是提供了一个上界。此外,它还为系统识别中的正则化提供指导。
发布时间: 5/6/2025
查看原文
作者: Qitian Wu, Chenxiao Yang, Kaipeng Zeng, Michael Bronstein
arXiv:2310.06417v2 announce 类型: replace-cross 摘要:泛化能力是现代学习系统取得成功的基础。对于涉及拓扑结构的非欧几里得数据,例如图形数据,前期研究中一个被忽视的重要方面是如何在拓扑转变下机器学习模型的泛化能力。本文提出了一种基于物理原理的图变换器模型——AdvDIFFormer,旨在解决这一挑战。该模型源自描述一类带有观测和潜在拓扑结构的连续消息传递过程的对流扩散方程。我们证明,AdvDIFFormer具有在拓扑转变下控制泛化误差的可证明能力,而图扩散模型无法保证这一点。实验上,该模型在信息网络的各种预测任务、分子筛选和蛋白质相互作用中表现出明显的优势。
发布时间: 5/6/2025
查看原文
作者: Shirui Chen, Stefano Recanatesi, Eric Shea-Brown
arXiv:2310.01770v4 宣告类型: replace-cross 摘要: 理解损失景观几何中参数空间的锐度,即反映损失景观平坦性的度量,一直是研究神经网络行为潜力联系的基础。虽然锐度通常与泛化相关联,但最近的研究揭示了这种关系中的不一致,使得其真正意义仍然模糊不清。在这篇论文中,我们探讨了锐度如何影响特征空间中神经表示的局部几何特征,提供了一个关于其作用的新视角。我们介绍了这个问题,并研究了三种压缩度量:基于体压缩的局部体积比(LVR)、基于输入变化敏感性的最大局部敏感性(MLS)以及基于敏感性在不同方向上的均匀性的局部维度。我们展示了LVR和MLS与局部最小值周围的损失平坦性相关,并且这种相关性可以用相对简单的数学关系来预测:平坦度较深的损失对应于神经表示压缩度量的上界较低。我们的工作建立在Ma和Ying的线性稳定性洞察之上,推导出了各种压缩度量和涉及锐度的数量之间的不等式。这些不等式也自然扩展到重新参数化不变的锐度。通过在各种前向、卷积和变压器架构上的经验实验,我们发现我们的不等式预测了局部表示压缩和锐度之间始终为正的相关性。
发布时间: 5/6/2025
查看原文