arXiv:2501.17168v3 通知类型: replace-cross
摘要:基于树的遗传编程(TGP)是一种广泛用于符号回归、特征工程和科学建模的关键进化算法。其高计算需求使得GPU加速对于可扩展和高性能的进化计算至关重要。然而,TGP的GPU加速面临着三个关键挑战:不高效的树编码、高度异构的遗传操作以及评估适应度时有限的并行性。为了解决这些问题,我们引入了EvoGP,这是一个全面的GPU加速TGP框架。首先,我们设计了一种张量编码方案,以相同形状的张量来表示不同结构的树,优化内存访问并支持高效并行执行。其次,我们通过利用共享计算原语并为可扩展性能实施专门的CUDA内核,提出了一种统一的遗传操作并行框架。第三,我们提出了一种完全并行的适应度评估策略,利用种群级和数据级并行性来最大限度地利用GPU。此外,我们实现了一个全面的库,提供丰富的算法操作符和基准问题。EvoGP已在各种任务上进行了广泛测试,包括符号回归、分类和机器人控制,展示了其在不同类型应用场景中的 versatility 和有效性。实验结果显示,EvoGP在与最先进的GPU加速TGP实现相比,速度提高了多达140.89倍,同时保持或超过了基线方法的准确性。EvoGP是开源的,并可在以下链接访问:https://github.com/EMI-Group/evogp。
arXiv:2501.16729v2 公告类型: 替换-交叉
摘要: 我们研究了不同稀疏架构对深度强化学习的好处。特别是,我们关注基于图像的领域,在这些领域中,空间偏向性和全连接架构很常见。使用这些架构以及其他几种具有相同容量的架构,我们展示了稀疏结构对学习性能有显著影响。我们还观察到,为给定领域选择最佳稀疏架构取决于隐藏层权重是固定的还是学习得出的。
arXiv:2501.16450v2 通知类型: 替换-交叉
摘要:排名和推荐系统是众多在线体验的基础,从搜索结果到个性化内容的交付。这些系统已演进为具有复杂多层架构的系统,利用庞大的数据集,并且通常包含数千个预测模型。维护和增强这些模型是一个耗时的过程,需要广泛的功能工程。这种方法不仅加剧了技术债务,还阻碍了将这些系统扩展到新兴问题领域的创新。在本报告中,我们通过使用具有文本接口的大型基础模型来解决这些挑战,以应对排名和推荐任务。我们展示了这种方法的一些关键优势:(1) 单个模型可以管理涉及排名和推荐的各种预测任务,(2) 具有文本接口的解码器模型由于其理解推理能力,可以迁移到新的推荐表单和领域外问题,并获得更好的表现,(3) 通过使用自然语言接口定义任务、口头描述成员行为及其社会关系,我们消除了功能工程和复杂有向无环图模型依赖性的维护需求。我们介绍了我们的研究预生产模型,360Brew V1.0,这是一个1500亿参数的仅解码器模型,已在领英的数据和任务上进行了训练和微调。该模型能够解决领英平台各个细分领域的超过30个预测任务,在离线指标上达到了或超过了当前生产系统的性能水平,而无需针对特定任务进行微调。值得注意的是,这些任务通常是通过多个团队经过多年开发和维护的专用模型来处理的。
arXiv:2501.16383v2 通知类型: replace-cross
摘要:键值(KV)缓存通过避免重新计算过去的KV,促进了高效的大规模语言模型(LLMs)推理。随着批量大小和上下文长度的增加,过大的KV缓存成为显著的内存瓶颈,突显了高效压缩的必要性。现有的KV量化依赖于精细的量化或保留大量高比特宽度的缓存,两者都牺牲了压缩比,并且在极端低的平均比特宽度下通常无法保持鲁棒性。在本文中,我们探索了旋转技术在2位KV量化中的潜力,并提出了RotateKV,通过以下创新实现了准确且鲁棒的性能:(i)感知离群值的旋转,通过通道重排来适应不同通道的离群值分布,而不牺牲快速沃尔什-哈达玛变换(FWHT)的计算效率;(ii)预RoPE分组头旋转,减轻了旋转位置嵌入(RoPE)对提出感知离群值旋转的影响,并进一步在头之间平滑离群值;(iii)注意陷阱感知量化,利用大规模激活来精确识别并保护注意陷阱。RotateKV在使用LLaMA-2-13B时,使用2位量化在WikiText-2中实现了不到0.3的困惑度(PPL)降解,保持了强大的CoT推理能力和长上下文能力,在GSM8K中的降解不到1.7%,即使在较低的平均比特宽度下也优于现有方法。RotateKV还展示了3.97倍的峰值内存使用量减少,支持5.75倍更大的批量大小,并在解码阶段实现了2.32倍的速度提升。
arXiv:2501.16249v2 通告类型: replace-cross
摘要:肺炎是儿童疾病和死亡的主要原因之一,强调了早期和准确检测的必要性。在本研究中,我们提出了一种新型的轻量级集成模型,用于通过胸部X光图像检测儿童肺炎。该集成模型结合了两个预训练的卷积神经网络(CNNs),MobileNetV2和NASNetMobile,它们的选择基于计算效率和准确性之间的平衡。这些模型在儿科胸部X光数据集上进行了微调,并结合使用以提高分类性能。我们提出的集成模型达到了98.63%的分类准确性,显著优于单个模型,如MobileNetV2(97.10%)和NASNetMobile(96.25%)在准确性、精确度、召回率和F1得分方面。此外,该集成模型在保持计算效率的同时,优于包括ResNet50、InceptionV3和DenseNet201在内的先进架构。提出的轻量级集成模型为肺炎检测提供了一个高效且资源节省的解决方案,特别适合在资源受限的环境中部署。
arXiv:2501.15708v2 公告类型: replace-cross
摘要:分类任务在上下文学习(ICL)范式中被广泛研究。然而,当前的努力是在互斥的基准和设置上进行评估,而他们的性能受到了一些琐碎变量的影响,如提示模板、数据采样、指令等,这导致了不同文献中报告结果的巨大不一致性,阻碍了不同论文之间公平的比较或元分析。因此,本文提出了一个标准化且易于使用的评估工具包(StaICC)用于上下文分类。具体而言,对于普通的分类任务,我们提供了一个标准化的工具包 StaICC-Normal,选择了10个广泛使用的数据集,并生成具有固定形式的提示,以减轻实验实现之间的差异性。为了丰富我们基准的使用,我们还提供了一个次基准 StaICC-Diag 用于从多个方面诊断 ICL,旨在实现更稳健的推理处理。
arXiv:2501.14844v2 宣告类型: replace-cross
摘要:检测生成模型生成输出中的偏见对于减少其在关键应用场景中潜在风险至关重要。然而,现有的大多数用于识别生成文本中偏见的方法都是将模型孤立地进行考虑,而忽视了它们的上下文应用。具体来说,涉及生成模型的多智能体系统中可能产生的偏见仍需进一步研究。为了解决这一问题,我们提出了一种框架,用于量化多智能体系统中的对话型大型语言模型(LLMs)中的偏见。我们的方法涉及模拟小型回声室,在这些回声室中,由观点一致的LLM对在极化话题上展开讨论。出乎意料的是,我们观察到生成的消息中立场出现了显著变化,特别是在所有智能体初始表达保守观点的回声室内,这些智能体按之前记录的许多LLMs的政治偏见,倾向于自由主义立场。重要的是,在当前最先进的基于问卷的偏见检测方法中,未能检测到实验中在回声室中观察到的偏见。这凸显了对于多智能体系统中的偏见检测和缓解开发更复杂工具套件的迫切需求。用于执行实验的代码可在 https://anonymous.4open.science/r/LLMsConversationalBias-7725 公开获取。
arXiv:2501.14238v2 Announce Type: replace-cross
摘要:我们引入了Point-LN,这是一种专门为高效3D点云分类设计的轻量化框架。Point-LN集成了诸如最远点采样(FPS)、k-最近邻(k-NN)和非学习位置编码等核心非参数组件,并结合了一个简洁的学习分类器,显著提高了分类准确性,同时保持了极小的参数占用。这种混合架构确保了低计算成本和快速的推理速度,使其适合实时和资源受限的应用。在包括ModelNet40和ScanObjectNN在内的基准数据集上的全面评估结果显示,Point-LN在性能上与最先进的方法相当,同时展现出卓越的效率。这些结果确立了Point-LN作为一种可靠且可扩展的解决多种点云分类任务的方案,突显了其在各种计算机视觉应用中的广泛应用潜力。
arXiv:2501.14183v2 通知类型: 交叉替换
摘要:变体分词,即将每个变体独立地表示为单独的令牌,在多变量时间序列预测中取得了显著进步。然而,使用自注意力机制处理变体令牌会导致计算成本与变体数量的平方级增长,从而限制了其在大规模应用中的训练效率。为了解决这一问题,我们提出了一种简单且高效的策略VarDrop,该策略在训练过程中通过省略冗余变体令牌来减少令牌的使用量。VarDrop 适应性地排除给定批次内的冗余令牌,从而减少用于点积注意力的令牌数量,同时保留关键信息。具体来说,我们引入了k-主导频率哈希(k-DFH),它利用频域中排名靠前的主导频率作为哈希值,以高效地对表现出类似周期行为的变体令牌进行分组。然后,通过分层抽样从每个组中抽取代表性令牌。通过仅使用这些选择的令牌进行稀疏注意力,缩放点积注意力的计算成本显著降低。在公共基准数据集上的实验表明,VarDrop 在与现有高效基线比较时表现出色。
arXiv:2501.14172v2 通知类型: 交叉替换
摘要:轻量级深度学习方法在疟疾检测中的应用引起了人们对其实施数字化诊断在资源有限环境中增强诊断能力的兴趣。在本研究中,我们选择了SqueezeNet1.1,因为它是最受欢迎的轻量级架构之一。SqueezeNet1.1是SqueezeNet1.0的后续版本,相比原始模型在计算效率上提高了2.4倍。我们提出了并对SqueezeNet1.1架构进行了三个超轻量级架构变体的实现,分别为变体1(一个fire模块)、变体2(两个fire模块)和变体3(四个fire模块),这三个变体比SqueezeNetV1.1(八个fire模块)更为紧凑。这些模型被实现用于评估能在不牺牲准确性的情况下,在疟疾血液细胞分类中实现最佳计算效率的变体。这些模型使用NIH疟疾数据集进行了训练和评估。我们根据准确性、召回率、精确率、F1分数和曲线下面积(AUC)等指标评估了每个模型的性能。结果显示,SqueezeNet1.1模型在所有指标上均表现出最佳性能,分类准确率为97.12%。变体3(四个fire模块)提供了具有竞争力的替代方案,其准确率为96.55%,计算开销减少了6倍,几乎与SqueezeNet1.1的表现相同。变体2和变体1的性能略低于变体3,变体2(两个fire模块)将计算开销减少了28倍,而变体1(一个fire模块)将可训练参数减少了54倍,相比SqueezeNet1.1。这些发现表明,我们的SqueezeNet1.1架构变体提供了一种灵活的疟疾检测方法,能够根据资源限制和性能选择合适的变体。