arXiv:2502.01659v1 类型: cross
摘要: 变量堆栈已经在自然语言处理和生物信息学等多个领域表现出巨大的成功。这种成功源于这些模型通过注意力机制来表示和传播序列数据中单个标记之间的成对相互作用。然而,这种操作的主要限制在于其与上下文长度呈二次关系的内存和时间复杂度——需要捕捉相互作用的序列长度。这极大地限制了这些模型能够推理的序列长度。为了减少成对相互作用的数量,使该数量相对于上下文长度不再是二次的,广泛的研究已经通过引入注意力机制的稀疏性来探索减少相互作用的方法,即通过开发稀疏注意力掩码。然而,能够实现“真稀疏性”的高效实现仍然缺乏。
在这项工作中,我们通过提出一种图计算视角的注意力机制来解决这一问题,其中标记被视为图的节点,注意力掩码决定了图的边。在此视角下,我们开发了图处理算法来实现注意力机制。从理论和实验的角度来看,我们证明了我们的算法仅执行所需的计算,即它们是最有效的工作量。我们还使用流行的注意力掩码进行了广泛的实验,以探索稀疏性对执行时间和可实现的上下文长度的影响。我们的实验证明,与当前最先进的注意力实现(如FlashAttention)相比,在长序列长度的情况下,我们的算法可以显著提高执行时间。此外,我们还展示了我们的算法能够在单张NVIDIA A100 GPU(SXM4 80GB)上实现长达1.6亿的序列长度。
arXiv:2502.01657v1 宣告类型:交叉
摘要:大型语言模型(LLMs)在可靠地解决推理任务方面仍然面临挑战,尤其是在涉及精确规则遵循的数学推理任务中。本文介绍了一种新的神经符号方法,通过将隐藏状态编码为神经符号向量,改进了LLM的推理能力,以便在神经符号向量空间内解决问题。结果解码并与原始隐藏状态结合,提升了模型在数值推理任务上的性能。通过神经符号表示卸载计算,该方法提高了效率、可靠性和可解释性。我们的实验结果表明,与链式思维提示和监督微调(LoRA)相比,在一系列数学推理问题上,该方法的交叉熵损失降低了平均82.86%,正确解决问题的数量提高了24.50倍,同时不影响LLM在其他任务上的性能。
arXiv:2502.01655v1 类型: 综合
摘要:集成技术与欠采样技术都是处理不平衡数据集分类问题的有效工具。本文提出了一种结合集成学习优势进行分类器偏向化和一种新型欠采样方法的新型集成方法。欠采样方法名为二元PSO实例选择法;它与集成分类器结合在一起,寻找最合适的较大类样本的长度和组合,以构建一个包含少数类样本的新数据集。本文提出的方法采用了多目标策略,该方法的贡献在于显著提高了不平衡分类性能,并同时最大程度地保证了原始数据集的完整性。我们对提出的该方法进行了实验,并将其性能与其他几种传统的基本集成方法进行了比较。我们还在二元PSO实例选择框架中使用了改进版本的这些不平衡数据集进行实验。根据实验结果,我们提出的方法优于单一集成方法、最先进的欠采样方法,以及传统PSO实例选择算法与其他方法的组合。
arXiv:2502.01652v1 交叉类型:公告
摘要:Hybrid Group Relative Policy Optimization (Hybrid GRPO) 是一种强化学习框架,它将 Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO) 扩展为结合经验多抽样动作评估,同时保持基于价值函数学习的稳定性。与 DeepSeek GRPO 不同,DeepSeek GRPO 为了纯经验奖励估计而消除了价值函数。Hybrid GRPO 引入了一种结构化的优势计算方法,平衡了经验动作采样与更新价值函数的方法。这种方法增强了样本效率、提高了学习稳定性,并缓解了纯经验方法中观察到的方差放大问题。详细介绍了 PPO、DeepSeek GRPO 和 Hybrid GRPO 之间的数学比较,突出了优势估计和策略更新中的关键差异。在受控的强化学习环境中进行的实验验证表明,Hybrid GRPO 较现有方法实现了更快的收敛速度、更稳定的策略更新和更高的样本效率。对 Hybrid GRPO 进行了多个扩展,包括熵正则化采样、分层多步子抽样、自适应奖励归一化和基于价值的动作选择。Beyond 在模拟环境中的强化学习之外,Hybrid GRPO 提供了一个可扩展的框架,用于弥合大规模语言模型(LLMs)和基于代理的真实世界决策之间的差距。通过将结构化经验采样与强化学习的稳定性机制集成,Hybrid GRPO 具有在自主机器人、金融建模和基于 AI 的控制系统中的潜在应用。这些发现表明,Hybrid GRPO 作为一种稳健和适应性强的强化学习方法,为策略优化的进一步发展奠定了基础。
arXiv:2502.01651v1 Announce Type: cross
摘要:本文旨在优化 Llama2 推理,这是机器学习和自然语言处理(NLP)中的一个关键方面。我们评估了包括 TensorFlow、PyTorch、Python、Mojo、C++ 和 Java 在内的各种编程语言和框架,并通过广泛的基准测试分析了它们在速度、内存消耗和实现便捷性方面的性能。强调了每种方法的优势和局限性,并提出了并行处理和硬件利用方面的优化策略。此外,我们研究了 Mojo SDK,这是一个专为 Apple Silicon 上的大语言模型(LLM)推理设计的新框架,并将其性能与 C、C++、Rust、Zig、Go 和 Julia 的实现进行基准测试。在 Apple M1 Max 上进行的实验表明,Mojo SDK 具有竞争力的性能、易用性和与 Python 的无缝兼容性,使其成为 Apple Silicon 上 LLM 推理的强效替代方案。我们还讨论了 LLM 在资源受限硬件上的部署的更广泛影响,并指出了未来研究的潜在方向。
arXiv:2502.01158v1 多模态融合类型: 综合
摘要: 多模态融合利用不同模态的信息来学习更好的特征表示,以提高融合任务中的性能。然而,多模态数据集,特别是在医疗环境中,通常比其单一模态的对应数据集规模要小,这可能会阻碍多模态模型的性能。此外,模态数量的增加通常伴随着整个多模态网络规模的增加,这可能在医疗应用场景中不太可取。使用较小的单一模态编码器可能会导致性能不佳,特别是在处理高维临床数据时。在本文中,我们提出了一种基于知识蒸馏的多模态模型压缩框架——Modality-INformed 知识蒸馏(MIND)框架,该框架将不同大小的预训练深度神经网络集成的知识转移到一个较小的多模态学生模型中。教师模型由单一模态网络组成,使得学生可以从多种表示中学习。MIND 使用多头联合融合模型,而不是单头模型,在单一模态样本的情况下,可以使用单一模态编码器,而不需要对缺失的模态进行插补或掩码。因此,MIND 生成了一个优化的多模态模型,增强了多模态和单一模态的表示。同时,它也可以在训练过程中用于平衡多模态学习。我们使用时间序列数据和胸部 X 光图像对 MIND 进行了二分类和多标签临床预测任务的评估。此外,我们还评估了 MIND 框架在三个非医疗多模态多分类数据集上的可推广性。实验结果表明,与最先进的基线方法相比,MIND 能够提高所有五个任务中较小多模态网络的性能,以及各种融合方法和多模态架构的性能。
arXiv:2501.18444v1 Announce Type: cross
摘要:本研究旨在解决在视障人士辅助技术中对准确且高效的物体检测的需求。我们在室内导航辅助的背景下,评估了四种实时物体检测算法:YOLO、SSD、Faster R-CNN 和 Mask R-CNN。使用 Indoor Objects Detection 数据集,我们分析了检测精度、处理速度以及在室内环境中的适应性。我们的研究结果强调了精度与效率之间的权衡,为实时辅助导航选择最优算法提供了见解。此研究推动了自适应机器学习应用的发展,提高了视障人士室内导航解决方案的水平,并促进了无障碍环境的建设。
arXiv:2501.18441v1 类别:交叉学科
摘要:本文探讨了社交媒体算法和过滤气泡如何加剧在线话语的碎片化,促进意识形态分歧并削弱共同理解。基于迈克尔·桑德尔对社区和共同价值观的哲学强调,该研究探讨了数字平台如何在社会紧张加剧期间放大歧视性言论,包括性别歧视、种族歧视、仇外心理、能动障碍、性取向歧视和宗教不容忍。通过分析数字社群的动态,该研究突出显示了在应对现实世界事件时驱动话语碎片化和演变的机制。研究结果揭示了社交媒体结构如何加剧 polarization,限制跨群体对话,并削弱维持公正社会所需的集体推理能力。该研究将哲学视角置于对社交媒体互动的计算分析中,提供了对数字时代碎片化话语所提出的挑战的复杂理解。
arXiv:2411.10406v2 宣告类型: cross
摘要:在四十年的时间里,量子计算从一种智力上的好奇心发展成为一种可能实现的技术。如今,在物理量子比特数量达数百个的情况下,量子算法的基本演示已经成为可能,并且已经证明了针对单一逻辑量子比特的基本纠错原理。尽管取得了显著的进展和热情,通往全栈可扩展技术的道路仍然充满未知。存在许多重要的量子硬件、制造、软件架构和算法挑战,这些问题要么未得到解决,要么被忽视。这些问题可能会严重阻碍实用规模量子计算机在未来一段时间内的出现。在这里,我们提供了这些扩展挑战的全面回顾。我们展示了通过采用现有的半导体技术来构建更高质量的量子比特、采用系统工程方法以及在异构高性能计算基础设施内进行分布式量子计算,可能会铺平通往扩展的道路。这些研究与开发的机会有可能解锁某些有前途的应用,特别是高效地模拟或学习由自然或人工量子系统生成的量子数据。为了估算这些承诺的实际成本,我们基于当前、目标和期望的硬件规格(基于超导量子比特),对表面码纠错量子计算机上经典困难的量子化学计算所需的资源和敏感性进行了详细分析,同时考虑了实际的错误分布。此外,我们认为,为了以成本有效的 manner 处理工业规模的经典优化和机器学习问题,应考虑采用定制化加速器来进行异构量子概率计算作为通往扩展性的补充途径。
arXiv:2410.14170v2 宣告类型: cross
摘要: 个性化内容过滤,如推荐系统,已经成为缓解信息过载的关键基础设施。然而,这些系统仅仅过滤现成的内容,并受到其有限多样性的限制,使得难以满足用户多样化的内容需求。为了解决这一限制,个性化内容生成已成为一种有广泛应用前景的有希望的方向。尽管如此,大多数现有研究集中在个性化文本生成上,对个性化图像生成的关注相对较少。现有的个性化图像生成工作在从嘈杂的用户交互图像和复杂的多模态指令中准确捕捉用户视觉偏好和需求方面面临挑战。更糟糕的是,个性化图像生成模型的训练缺乏监督数据。
为了克服这些挑战,我们提出了一个名为Pigeon的个性化图像生成框架,采用优秀的超大规模多模态模型,并设有三个专用模块,从嘈杂的用户历史和多模态指令中捕捉用户的视觉偏好和需求。为缓解数据不足的问题,我们引入了一种两阶段的偏好对齐方案,包括掩蔽偏好重建和成对偏好对齐,以将Pigeon与个性化图像生成任务对齐。我们将Pigeon应用于个性化贴纸和电影海报生成,广泛的定量结果和人类评估突显了它在各种生成基线中的优越性。