arXiv:2505.03810v1 宣言类型: 多领域交叉
摘要: 大型语言模型(LLMs)由于计算成本高而在部署中面临挑战,虽然后训练量化(PTQ)提供了一种解决方案,但现有的旋转基方法在very low bit-widths如2位时表现不佳。我们提出了一种新的、无需训练的方法来构建改进的旋转矩阵,解决了当前方法的限制。主要贡献包括利用沃尔什-哈达玛变换及其sequency排序,这将相似的频率成分聚类,从而在标准哈达玛矩阵的基础上显著减少量化误差,从而显著提高性能。此外,我们提出了分组sequency排列旋转(GSR),使用具有较小沃尔什块的块对角矩阵,有效地隔离了异常值的影响,并且在无需任何训练的情况下实现了与基于优化方法相当的性能。我们的方法在推理任务和WikiText-2上的困惑度(PPL)得分上表现出稳健的性能。即使在应用于现有的学习旋转技术之上,我们的方法也能增强结果。
arXiv:2505.03809v1 类别: cross
摘要: 动态数据选择旨在通过无损性能来加速训练。然而,减少训练数据本质上会限制数据多样性,这可能会妨碍泛化的实现。尽管数据扩展现已广泛用于增强多样性,但通常没有与选择技术进行优化结合。因此,直接将这两种技术相结合无法充分利用它们的协同作用。为了解决这一挑战,我们提出了一种新颖的在线数据训练框架,这是首次将动态数据选择和扩展现统一起来,从而实现训练效率和增强性能。我们的方法估计每个样本的局部密度和多模态语义一致性联合分布,允许针对扩展现适宜的样本进行选择,同时抑制噪声或模糊数据的包含。这使得在不牺牲模型泛化能力的情况下显著减少数据集大小。实验结果表明,我们的方法在各种基准数据集和架构上超越了现有最先进的方法,例如,在无损性能的前提下,将ImageNet-1k的训练成本减少50%。此外,我们的方法增强了对噪声的抵抗能力和提高了模型的鲁棒性,进一步强化了其实用性在实际场景中的应用。
arXiv:2505.03807v1 Announce Type: cross
摘要:视频故事互动使观众能够参与并探索叙事内容,以获得个性化的体验。然而,现有方法仅限于用户选择、特别设计的叙事,并缺乏个性化定制。为了解决这个问题,我们提出了一种基于用户意图的交互系统。该系统使用视觉语言模型(VLM)使机器能够理解视频故事,并结合检索增强生成(RAG)和多代理系统(MAS)来创建不断演变的角色和场景体验。它包括三个阶段:1)视频故事处理,利用VLM和先前知识,在三个模态中模拟人类对故事的理解。2)多空间聊天,通过MAS交互根据用户查询和故事阶段创建成长导向的角色。3)场景定制,扩展并可视化对话中提到的各种故事情景。在哈利波特系列中的应用显示,该系统有效地再现了角色社交行为和成长,提升了视频故事世界的互动体验。
arXiv:2505.03806v1 宣称类型: cross
摘要:本文介绍了感知导向神经网络(PrINNs),这是一种旨在将感知导向的信息融入神经网络的框架,适用于具有已知或未知物理定律或微分方程的系统。此外,PrINNs 扩展了物理导向神经网络(PINNs)及其变体的概念,提供了一个将不同形式的感知精确化集成的平台,包括单一值、概率分布、可能性分布、区间以及模糊图。实际上,PrINNs 通过损失函数结合专家知识和感知导向的信息,使神经网络能够建模动力系统,从而创建现代数据驱动模型。其中一些关键贡献包括专家知识混合导向神经网络(MOEINNs),它将异质专家知识整合到网络中,以及知识变换导向神经网络(TKINNs),它有助于通过元信息的引入以增强模型性能。此外,模糊导向神经网络(FINNs)作为一种现代的模糊深度神经网络类,利用模糊逻辑约束于深度学习架构中,实现在线训练而无需预训练,同时也消除了去模糊化的需要。PrINNs 代表了在传统基于物理建模与现代数据驱动方法之间架起桥梁的一大进步,使神经网络能够从结构化的物理规律和灵活的感知导向规则中学习。这种方法使神经网络能够在不确定环境中运行,建模复杂系统,并发现新的微分方程形式,从而使得PrINNs 成为推进计算科学与工程的强大工具。
arXiv:2505.03804v1 Announce Type: cross
摘要:利用动态路由和稀疏激活以提高效率和可扩展性的混合专家(MoE)大型语言模型(LLMs)在减少计算成本的同时实现了更高的性能。然而,这些模型面临显著的内存开销问题,限制了它们的实际部署和更广泛的采用。对于压缩大型语言模型常用的后训练量化(PTQ)方法,在应用于MoE模型时遇到了严重的精度下降和降低的一般化性能问题。本文研究了MoE的稀疏和动态特性对量化的影响,并确定了两个主要挑战:(1)专家间不平衡,指的是样本在专家间的不均匀分布,导致未充分利用的专家的校准不足且偏差;(2)专家内不平衡,源于MoE独特的聚合机制,导致不同样本与其分配专家之间的相关程度不一。为了解决这些挑战,我们提出了MoEQuant,这是一种针对MoE LLM的独特量化框架。MoEQuant包括两种新技术:1)专家均衡自我采样(EBSS)是一种高效的方法,通过利用累积概率和专家平衡指标作为指导因素来高效地构建具有均衡专家分布的校准集。2)亲和力引导量化(AGQ),将专家和样本之间的亲和力纳入量化过程,从而准确评估不同样本对MoE层中不同专家的影响。实验表明,MoEQuant在4位量化下实现了显著的性能提升(例如,DeepSeekMoE-16B在HumanEval上的精度提高超过10分),并提升了效率。
arXiv:2505.03803v1 声明类型: cross
摘要: RWKV 是一个现代的循环神经网络(RNN)架构,其性能与 Transformer 相当,但在部署到资源受限的设备时仍面临挑战。后训练量化(PTQ),这是一种减少模型大小和推理延迟的关键技术,已在 Transformer 模型中广泛使用。然而,当应用于 RWKV 时,它会遭受显著的性能下降。本文调查并识别了 RWKV 内在特性的两个关键约束:(1) 非线性操作阻碍了基于平滑和旋转量化法的参数融合,引入了额外的计算开销。(2) 均匀分布的权重数量较多,这给基于聚类的量化方法带来了挑战,导致准确性下降。为了解决这些问题,我们提出了 RWKVQuant,这是一种专门为 RWKV 模型设计的 PTQ 框架,包含两种新颖的技术:(1) 一种粗细结合的代理,能够根据权重的均匀性和识别异常值来自适应地选择不同的量化方法,(2) 一种码本优化算法,该算法增强了基于聚类的量化方法在 RWKV 元素乘法中的性能。实验结果显示,RWKVQuant 可以将 RWKV-6-14B 量化为约 3 位,同时保持不到 1% 的准确率损失和 2.14 倍的加速。
arXiv:2505.03802v1 宣告类型: cross
摘要: QLoRA 有效结合了低比特量化和 LoRA,以实现大型语言模型(LLM)的内存友好型微调。最近,基于 SVD 的连续更新迭代方法,用于初始化 LoRA 矩阵以适应量化误差,普遍未能一致地提高性能。动态混合精度是连续改进量化模型微调性能的自然想法,但之前的方法通常单独优化低秩子空间或量化组件,而没有考虑它们的协同作用。为了解决这一问题,我们提出了一种名为 \textbf{QR-Adaptor} 的统一、无梯度策略,该策略使用部分校准数据联合搜索每个层的量化组件和低秩空间的秩,从而连续提高模型性能。QR-Adaptor 优化量化误差,而是将精度和秩分配视为由实际下游性能和内存使用指导的离散优化问题。与最新的量化 LoRA 微调方法相比,我们的方法在 GSM8K 上实现了 4.89% 的准确率提升,并在某些情况下甚至超越了 16 位微调模型,同时保持 4 位设置的内存占用。
arXiv:2505.03801v1 交叉型公告
摘要:低秩和稀疏复合近似是一种压缩大型语言模型(LLMs)的自然想法。然而,这种方法面临两个主要挑战,这些挑战会严重影响现有方法的性能。第一个挑战涉及低秩矩阵和稀疏矩阵之间的交互与合作,而第二个挑战则涉及到在不同层之间分配权重,因为这些层之间的冗余程度差异很大。为了解决这些挑战,我们提出了一种具有全局秩和稀疏优化能力的新型两阶段LLM压缩方法。值得注意的是,整体优化空间非常庞大,使得全面优化计算上不可行。因此,为了减少优化空间,我们第一阶段利用鲁棒主成分分析将LLM的权重矩阵分解为低秩和稀疏分量,这些分量分别位于低维和稀疏空间中,包含相应的低秩和稀疏矩阵。在第二阶段,我们提出了一种概率全局优化技术,以联合识别上述两个空间中的低秩和稀疏结构。我们方法的吸引之处在于它能够自动检测不同层之间的冗余,并管理稀疏和低秩组件之间的交互。广泛的实验结果表明,我们的方法在稀疏化和复合近似方面显著超越了现有最先进的技术。
arXiv:2505.03799v1 Announce Type: cross
摘要:大规模语言模型(LLMs)在各种自然语言处理任务中展示了强大的能力;然而,它们在图相关问题中的应用受到限制,主要原因在于可扩展性的约束以及缺乏专门处理图结构的机制。现有的方法主要将LLMs与图神经网络(GNNs)结合使用,使用GNNs作为特征编码器或辅助组件。然而,在大规模图结构中直接在LLMs中编码图结构的研究尚不足,特别是在由于标记限制导致难以有效表示的情况下。为了解决这些挑战,我们提出了一种新的指令调优图语言模型(InstructGLM)框架——SDM-InstructGLM,该框架在不依赖GNNs的情况下增强了可扩展性和效率。我们的方法引入了一种基于相似度-度数的偏差随机游走机制,该机制根据节点特征相似性和度中心性选择性地采样和编码图信息,确保LLM中的自适应和结构化表示。这种方法显著提高了标记效率,减轻了由于随机采样造成的信息损失,并在节点分类和链接预测等图基任务中提升了性能。此外,我们的结果表明LLM在图处理方面的可行性,使通过指令为基础的微调获得可扩展且可解释的图语言模型(GLMs)成为可能。本项工作为无GNN的图学习方法铺平了道路,利用LLMs作为独立的图推理模型。我们的源代码已发布在GitHub上。
arXiv:2505.03798v1 宣告类型: cross
摘要: 当前的基础模型(FMs)依赖于将连续的多模态现实世界数据直接分割成离散的词元表示。这限制了FMs纯粹通过统计关联来学习现实世界知识和关系的能力,而很少利用明确的领域知识。因此,当前的FMs在跨模态保持语义连贯性、捕捉细粒度的空间-时间动态和进行因果推理方面存在困难。这些限制仅通过扩展模型规模或扩大数据集的规模是无法解决的。这篇立场文章认为,机器学习社区应该考虑使用以结果为导向的数字化双胞胎(DT)表示,作为构建FMs的构建块,以替代词元表示。最后,我们讨论了DT表示如何通过提供基于物理的表示来解决这些挑战,这些表示明确地编码了领域知识,并保留了现实世界过程的连续性。