arXiv:2502.12913v1 初报类型: cross
摘要: 大型语言模型(LLMs)微调技术已经取得了显著成果。然而,传统LLM微调方法面临重大挑战:它们需要大量的浮点(FP)计算,在处理敏感数据时会引发隐私问题,并且不适合资源受限的边缘设备。尽管参数高效微调(PEFT)技术减少了可训练参数,但它们依赖浮点运算在硬件上存在基本不兼容问题。在这项工作中,我们介绍了一种新的边缘设备上LLM微调框架,该框架在推理和训练中均不需要浮点运算,名为GSQ-Tuning。其核心是分组共享指数整数格式,该格式高效地使用分组参数间的共享指数以整数格式表示模型参数。结合LoRA类似适配器时,这使完全基于整数的微调成为可能,既能减少内存使用,也能提高计算效率。我们展示了我们的方法在准确性上与基于FP16的微调方法相当,同时显著减少内存使用(50%)。与FP8相比,我们的方法在相同性能下可以减少5倍的功耗和11倍的芯片面积,使得大规模模型适应在边缘设备上变得可行。
arXiv:2502.12908v1 Announce Type: cross
摘要:图神经网络(GNNs)是用于图形结构数据的强大深度学习模型,已经在多个领域取得了显著的成功。最近,数据库(DB)社区越来越认识到GNNs的潜力,从而引发了通过基于GNN的方法改进数据库系统的研究热潮。然而,尽管取得了显著的进步,但仍然缺乏对GNNs如何改进数据库系统的全面回顾和理解。因此,本文旨在通过提供GNNs在数据库系统中的结构化和深入概述,弥补这一差距。具体而言,我们提出了一种新的分类法,将现有方法分为两大类:(1)关系型数据库,包括性能预测、查询优化和文本到SQL等任务;(2)图数据库,解决图查询处理效率和图相似性计算等挑战。我们系统地回顾了每个类别中的关键方法,强调了它们的贡献和实际应用意义。最后,我们提出了将GNNs集成到数据库系统中的有前景的方向。
arXiv:2502.12900v1 交叉公告类型
摘要:现有的端到端语音大规模语言模型(LLMs)通常依赖大规模标注数据进行训练,而数据高效训练尚未得到深入探讨。我们集中关注语音和文本之间的两个基本问题:表示空间差距和序列长度不一致。我们提出了Soundwave,这是一种利用高效训练策略和全新架构来解决这些问题的方法。结果表明,在语音翻译和AIR-Bench语音任务中,Soundwave仅使用五分之一的训练数据就超过了先进的Qwen2-Audio。进一步的分析显示,Soundwave在对话中仍能保持其智能性。该项目可在 https://github.com/FreedomIntelligence/Soundwave 查看。
arXiv:2502.12859v1 宣布类型: cross
摘要:虽然大规模语言模型(LLMs)在微调后能够很好地适应下游任务,但这种适应性往往会牺牲提示的稳健性,因为即使是微小的提示变化也可能显著降低性能。为了解决这个问题,我们提出了一种简单而有效的方法——提示无关微调(PAFT),这种方法在微调过程中动态调整提示。这鼓励模型学习潜在的任务原理,而不是过度拟合到特定的提示形式。PAFT 在两个阶段运行:首先,构建一组多样且有意义的合成候选提示。其次,在微调过程中,从这一组中随机采样提示,创建动态的训练输入。在各种多样化数据集和LLMs上进行的大量实验显示,使用PAFT训练的模型在广泛范围内的提示下,包括未见过的提示,都表现出强大的稳健性和泛化能力。这种增强的稳健性不仅提高了模型性能和推理速度,还保持了训练效率。进一步的消融研究也证实了PAFT的有效性。
arXiv:2502.12858v1 宣布类型: cross
摘要:通过奖励模型实现偏好对齐有助于构建安全、有帮助且可靠的大型语言模型(LLMs)。然而,在偏好判断中的主观性以及偏好数据收集中代表性不足会导致新的偏见,从而妨碍奖励模型的公平性和公正性。在本工作中,我们提出了一种评估奖励模型方言偏见的框架,并通过多项实验,对比了奖励模型在配对的白人主流英语(WME)和机器翻译及人工撰写的非洲裔美国人语言(AAL)语料库上的偏好和行为,开展了一系列案例研究。结果显示,当处理AAL文本而不是WME文本时,奖励模型的人类偏好对齐性较低(平均准确率降低4%),经常偏好WME对齐的文本超过AAL对齐的文本,并且即使在输入AAL文本时,也会引导对话转向WME。我们的研究结果提供了一种对LLM发展过程中较为研究不足阶段的反AAL偏见的针对性分析,揭示了代表性的危害和关于LLM在涉及AAL时期望行为的伦理问题。
arXiv:2502.12855v1 Announce Type: cross
摘要:虽然在高质量数据上预训练的大模型在各种推理任务中表现出色,包括数学推理(例如GSM8k、MultiArith),但将较小模型专门优化以在数学推理方面表现出色仍然是一个具有挑战性的问题。为了解决这个问题,常见的方法包括知识蒸馏,即较小的学生模型从大型预训练教师模型中学习,以及数据增强,例如重新表述问题。尽管付出了这些努力,但较小的模型在算术计算方面仍然存在困难,导致数学推理中的错误。在本文中,我们专注于利用编程生成的算术数据集来增强较小模型的推理能力。我们探讨了两种关键方法来整合该数据集——(1)中间微调,即在模型在推理数据集上训练之前,在算术数据集上进行微调,以及(2)将算术数据集整合到指令微调混合中,使模型能够在学习一般指令执行能力的同时学习算术技能。我们在多个推理基准上的实验结果表明,通过针对性微调或将其整合到指令微调混合中来引入算术数据集会增强模型的算术能力,从而提高其数学推理性能。
arXiv:2502.12851v1 论文类型: 交叉学科
摘要: 记忆是基于Transformer的大型语言模型的一项基本能力,通过学习实现。在本文中,我们通过设计一种直接记忆文本的架构,提出了一个范式转变,牢记记忆先于学习的原则。我们介绍了MeMo,一种新型的语言模型架构,明确地在分层关联记忆中记住了令牌序列。通过设计,MeMo提供透明性,并允许对模型进行编辑,包括遗忘文本。我们对MeMo架构进行了实验,展示了单层和多层配置的记忆能力。
arXiv:2502.12825v1 Announce Type: cross
摘要:当遇到来自新的大型语言模型(LLM)日益频繁的性能改进或成本降低时,依赖LLM的应用开发人员必须决定是否利用这些改进或继续使用较旧但经过测试的模型。低感知转换摩擦可能会导致做出不考虑转换可能引起的更微妙行为变化的选择。我们的实验使用了一个流行的博弈论行为经济学模型中的信任模型,展示了OpenAI和DeepSeek模型间显着的信任行为差异。我们强调,随着o1-mini和o3-mini模型在权衡利润最大化和风险偏好与信任带来的未来回报时,其经济信任行为出现崩溃;而DeepSeek的更复杂且更盈利的信任行为则源自其能够纳入更深层次的概念,如前瞻性规划和心理理论。由于LLM构成了高风险商业系统的基础,我们的结果强调了依赖过于狭义定义的LLM性能基准所面临的风险,并建议任何组织的AI战略中应包括对其隐藏故障线的仔细分析。
arXiv:2502.12798v1 声明类型:交叉
摘要:探索与利用权衡在推荐系统(RSs)中发挥着关键作用,旨在通过学习以往的交互来更好地服务于用户。尽管在商业上取得了成功,但探索与利用机制的社会影响尚未得到充分理解,尤其是在它们在不同用户之间产生的利益差异方面。在这项工作中,我们使用经济学中的嫉妒概念来衡量这种差异。我们引入了一个类似于多臂bandit的模型,每轮包含多个会话,并且奖励在每轮结束后实现。我们称后者为奖励一致性,并表明推荐系统可以利用这一属性以实现更好的社会结果。不过,这样做也会引起嫉妒,因为后来到达的用户享受了先期到达的用户的搜集到的信息。我们探讨了在多种到达顺序机制和任何匿名算法下生成的嫉妒,即任何不凭借用户身份而平等对待所有类似用户的算法。我们在均匀到达的情况下提供了嫉妒的紧界,并对推拉到达的情况进行了上界估计,在推拉到达的情况下,推荐系统可以通过诱导其用户的行为来影响到达顺序。此外,我们通过设计一个允许恒定嫉妒并近似最优福利的算法来研究效率与公平性的权衡。最后,我们通过仿真实验验证了我们的理论结果。
arXiv:2502.12793v1 宣告类型: cross
摘要: 在机器学习领域,检测数据集中的异常值是一个长期存在的问题。在这种情况下,异常值被定义为显著偏离其余数据的样本。同时,最优传输(OT)是数学领域的一个分支,关注的是在两个概率测度之间以最小努力进行传输。在古典的最优传输中,一个测度到自身的最优传输策略是恒等映射。在本文中,我们通过强迫样本转移其质量,同时保持最小努力的目标来解决异常检测问题。我们称这一新的传输问题为质量排斥最优传输(MROT)。自然地,位于空间低密度区域的样本将被迫转移大量质量,导致更高的传输成本。我们利用这些概念设计了一种新的异常值评分方法。通过在现有基准和故障检测问题上的一系列实验,我们展示了我们的算法在现有方法上有所改进。