LLM2D

arXiv 论文列表

作者: Jie Ren, Yuhang Zhang, Dongrui Liu, Xiaopeng Zhang, Qi Tian
arXiv:2502.01667v1 交叉类型公告: 摘要:直接偏好优化(DPO)已经在使扩散模型与人类偏好保持一致方面显示出成功。先前的方法通常假设最终生成和中间步骤中的嘈杂样本之间存在一致的偏好标签,并直接将DPO应用于这些嘈杂样本以进行微调。然而,我们从理论上识定了这种假设中存在的固有问题及其对偏好对齐有效性的影响。首先,我们从两个角度展示了这些固有问题:梯度方向和偏好顺序,然后提出了一种定制偏好优化(TailorPO)框架,以在一些理论洞察的基础上使扩散模型与人类偏好保持一致。我们的方法直接基于其步阶奖励对中间的嘈杂样本进行排序,并通过一种简单而有效的设计有效解决了梯度方向问题。此外,我们将扩散模型的梯度指导纳入偏好对齐中,进一步提高优化的有效性。实验结果表明,我们的方法显著提高了模型生成具有审美吸引力且符合人类偏好的图像的能力。
发布时间: 2/5/2025
查看原文
作者: Jiale Fu, Yuchu Jiang, Junkai Chen, Jiaming Fan, Xin Geng, Xu Yang
arXiv:2502.01662v1 广义类型: 横跨领域 摘要:通过结合多个模型来增强大型语言模型(LLMs)的方法虽然能够提升模型性能,但会带来高昂的计算成本。本文中,我们介绍了一种名为推测式集成的新框架,该框架能够在不牺牲性能的情况下加速LLM集成,灵感来源于推测性解码——在推测性解码中,一个小的提案模型按顺序生成标记,而一个较大的目标模型并行验证它们。我们的方法基于两个关键洞察:(1)验证分布可以是提案模型和目标模型的集成分布;(2)交替每个模型作为提案者和验证者可以进一步提升效率。我们将这种方法推广到n个模型的集成,并理论上证明推测式集成(SE)永远不会比标准集成慢,通常能够更快。广泛的实验结果表明,在不牺牲生成质量的情况下,推测式集成的方法比标准集成技术提高了1.11-2.23倍的速度。我们的代码可在 https://github.com/Kamichanw/Speculative-Ensemble/ 获得。
发布时间: 2/5/2025
查看原文
作者: Hao Liu (Deakin University), Yong Ge (The University of Arizona)
arXiv:2502.01660v1 Announce Type: cross 摘要:员工离职指的是个体从当前组织终止就业的行为。这是企业面临的一项最持久的挑战,尤其是信息技术(IT)行业,这些行业的员工离职率较高。有效的员工潜在离职预测对企业和在线招聘人员等多元利益相关者都有益。先前的研究主要关注单个企业的离职预测或各企业间的 aggregated 员工流动。关于如何预测多个企业的个别员工离职情况的研究很少受到关注,因此仍是一项巨大的研究挑战。在本研究中,我们提出了一种基于工作嵌入理论的新型深度学习方法,用于预测跨不同企业的个别员工离职情况。通过使用真实数据集进行广泛实验评估,我们开发的方法在多个最先进的基准方法中表现出更优的性能。此外,我们估算使用我们的离职预测解决方案为招聘人员节省的成本,并解释各种驱动力因素对员工离职的贡献,以展示其实用的商业价值。
发布时间: 2/5/2025
查看原文
arXiv:2502.01659v1 Announce Type: cross 摘要:变换器在自然语言处理和生物信息学等多个领域都取得了巨大的成功。这种成功源于这些模型使用注意力机制来表示和传播序列数据中单个标记之间的成对交互。然而,这种操作的主要限制是其与输入上下文长度成二次的内存和时间复杂度——即需要捕捉交互的序列长度。这极大地限制了这些模型能够推断的序列长度。为了减少成对交互的数量,使其与上下文长度成次二次关系,研究人员通过引入注意力机制的稀疏性来减少注意力掩码中的交互数量,进行了大量研究。然而,高效的实现“真正稀疏性”的方法仍然缺乏。 在这项工作中,我们通过提出一种图计算视角的注意力机制来解决这一问题,其中将标记视为图的节点,注意力掩码决定图的边。基于这种视角,我们开发了图处理算法来实现注意力机制。理论上和实验上,我们证明了我们的算法仅执行所需的计算,即它们是工作最优的。我们还使用流行的注意力掩码进行了广泛的实验,探索稀疏性对执行时间和可实现上下文长度的影响。我们的实验表明,与最先进的注意力实现方法(如用于长序列的FlashAttention)相比,我们的算法在执行时间上有显著的加速。我们还证明了我们的算法能够在单个NVIDIA A100 GPU(SXM4 80GB)上实现高达1.6亿的极长序列长度。
发布时间: 2/5/2025
查看原文
arXiv:2502.01657v1 类型: cross 摘要: 大型语言模型(LLMs)在可靠地解决推理任务方面仍然面临挑战,特别是在涉及精确规则遵循的数学推理任务中更为明显。本文提出了一个新颖的神经符号方法,通过将隐藏状态编码到神经符号向量中来提升LLM的推理能力,从而在神经符号向量空间内解决推理问题。结果被解码并与原始隐藏状态结合,提升了模型在数值推理任务上的性能。通过神经符号表示卸载计算,该方法提高了效率、可靠性和可解释性。我们的实验结果表明,与基于思维链提示和监督微调(LoRA)相比,该方法在一组数学推理问题上平均减少了82.86%的交叉熵损失,并且正确解决了24.50倍多的问题,同时并未妨碍LLM在其他任务上的性能。
发布时间: 2/5/2025
查看原文
作者: Jinyan Li, Yaoyang Wu, Simon Fong, Antonio J. Tall\'on-Ballesteros, Xin-she Yang, Sabah Mohammed, Feng Wu
arXiv:2502.01655v1 类型: cross 摘要:集成技术和欠采样技术都是用于解决不平衡数据集分类问题的有效工具。本文提出了一种结合集成学习对分类器进行偏置和一种新的欠采样方法的新型集成方法。该欠采样方法称为二进制PSO实例选择,它与集成分类器结合使用,以找到适中长度和多数类样本的最佳组合,构建一个新的包含少数类样本的数据集。本文采用多目标策略,该方法在不平衡分类性能方面表现出显著改善,并同时保证原始数据集的最佳完整性。我们对提出的该方法进行了实验,并将其性能与几种传统的基本集成方法进行了比较。还在改进版本中使用了二进制PSO实例选择封装集成分类器,对这些不平衡数据集进行了实验。根据实验结果,我们提出的该方法优于单一集成方法、最新最先进的欠采样方法,以及这些方法与传统PSO实例选择算法的组合。
发布时间: 2/5/2025
查看原文
arXiv:2502.01652v1 宣告类型: cross 摘要: Hybrid Group Relative Policy Optimization (Hybrid GRPO) 是一个扩展了Proximal Policy Optimization (PPO) 和Group Relative Policy Optimization (GRPO) 的强化学习框架,通过引入经验多样本行动评估来扩展PPO和GRPO,同时保持基于值函数学习的稳定性。与DeepSeek GRPO不同,后者为了纯粹的经验奖励估计而取消了值函数,Hybrid GRPO引入了一种结构化的优势计算方法,将经验行动采样与bootstrap值估计相平衡。这种方法增强了样本效率,改善了学习稳定性,并减轻了纯粹经验方法中观察到的方差放大。详细比较了PPO、DeepSeek GRPO和Hybrid GRPO之间的数学差异,突出了优势估计和策略更新的关键差异。在受控的强化学习环境中进行的实验验证表明,Hybrid GRPO在收敛速度、策略更新的稳定性以及样本效率方面优于现有方法。Hybrid GRPO还探索了几种扩展方法,包括熵正则化采样、层次多步亚采样、自适应奖励标准化和基于值的行动选择。除了在模拟环境中的强化学习之外,Hybrid GRPO提供了一种可扩展的框架,以弥合大型语言模型(LLMs)与基于代理的真实世界决策之间的差距。通过将结构化经验采样与强化学习稳定性机制相结合,Hybrid GRPO在自主机器人技术、金融建模和AI驱动的控制系统中有潜在应用。这些发现表明,Hybrid GRPO作为一种强大且适应性强的强化学习方法,为策略优化的进一步发展铺平了道路。
发布时间: 2/5/2025
查看原文
作者: Sazzad Hossain, Touhidul Alam Seyam, Avijit Chowdhury, Munis Xamidov, Rajib Ghose, Abhijit Pathak
arXiv:2502.01651v1 标题类型: cross 摘要:本文旨在优化 Llama2 推理,这是机器学习和自然语言处理(NLP)中的一个关键方面。我们评估了包括 TensorFlow、PyTorch、Python、Mojo、C++ 和 Java 在内的多种编程语言和框架,在广泛基准测试的基础上分析了它们在速度、内存消耗和实现简便性方面的性能。每一方法的优缺点得到了强调,并提出了并行处理和硬件利用的优化策略。此外,我们研究了 Mojo SDK 这一新型框架,该框架专为 Apple Silicon 上的大规模语言模型(LLM)推理设计,并将其性能与 C、C++、Rust、Zig、Go 和 Julia 的实现进行了基准测试。我们在 Apple M1 Max 上进行的实验表明,Mojo SDK 具有竞争力的性能、易于使用的特点以及与 Python 的无缝兼容性,将其定位为 Apple Silicon 上 LLM 推理的强大替代方案。我们还讨论了 LLM 在资源受限硬件上的部署的更广泛影响,并确定了未来研究的潜在方向。
发布时间: 2/5/2025
查看原文
作者: Alejandro Guerra-Manzanares, Farah E. Shamout
arXiv:2502.01158v1 类型: cross 摘要: 多模态融合通过在不同模态间利用信息来学习更好的特征表示,其目的是改进基于融合的任务性能。然而,多模态数据集,尤其是在医疗环境中,通常比其单模态对应数据集小,这会阻碍多模态模型的表现。此外,模态数量的增加通常伴随多模态网络整体尺寸的增加,这在医疗应用场景中可能是不理想的。使用较小的单模态编码器可能会导致表现不佳,特别是在处理高维临床数据时。在本文中,我们提出了Modality-INformed 知识蒸馏(MIND)框架,这是一种基于知识蒸馏的多模态模型压缩方法,将不同尺寸的预训练深度神经网络集中的知识转移到一个较小的多模态学生模型中。教师模型由单模态网络组成,使得学生可以从多样性表示中学习。MIND 使用多头联合融合模型,而不是单头模型,这使得在单模态样本情况下可以使用单模态编码器,而不需要填充或屏蔽缺失的模态。结果,MIND 生成一个优化的多模态模型,既增强了多模态和单模态表示,也可以在训练过程中平衡多模态学习。我们在时间序列数据和胸部X光图像上评估了MIND在二分类和多标签临床预测任务上的表现。此外,我们还在三个非医疗领域多模态多类数据集上评估了MIND框架的一般适用性。实验结果显示,与最先进的基线相比,MIND在所有五个任务、各种融合方法和多模态架构中都增强了较小多模态网络的表现。
发布时间: 2/5/2025
查看原文
作者: Abhinav Pratap, Sushant Kumar, Suchinton Chakravarty
arXiv:2501.18444v1 Announce Type: 剪裁 摘要:本研究关注于为视障人士提供的辅助技术中准确且高效的物体检测需求。我们评估了四种实时物体检测算法——YOLO、SSD、Faster R-CNN 和 Mask R-CNN,以室内导航辅助为背景进行研究。使用 Indoor Objects Detection 数据集,我们分析了检测准确性、处理速度以及在室内环境中的适应性。我们的研究结果突显了精确度与效率之间的权衡,为实时辅助导航选择最优算法提供了见解。这项研究推进了适应性机器学习应用的发展,增强了视障人士的室内导航解决方案,并促进了无障碍环境的建设。
发布时间: 2/5/2025
查看原文