arXiv:2407.21300v4 宣告类型: replace-cross
摘要:检索增强生成(RAG)在借助外部知识数据库协助大型语言模型(LLMs)的信息检索方面取得了显著的成效。然而,RAG 也存在很多问题,由于庞大的数据库,它消耗了大量的内存,并且在面对大规模流式数据时无法及时更新已建立的索引数据库。为了同时减少构建数据库所需内存并保持准确性,我们提出了一种新的方法,将流式算法与 k-means 聚类相结合应用于 RAG。我们的方法使用流式算法动态更新索引以降低内存消耗。此外,k-means 算法将高度相似的文档聚类,从而缩短查询时间。我们对四种方法进行了比较实验,结果表明,集成流式算法和 k-means 聚类的 RAG 在准确性和内存使用上优于传统的 RAG,特别是在处理大规模流式数据时表现尤为突出。
arXiv:2407.15508v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)的量化一直是研究的一个重要领域,旨在使其在实践中的轻量级部署成为可能。现有的关于LLM量化的研究主要探讨了权重和激活之间的相互作用,或者引入了辅助组件,而忽视了量化过程中调整权重的必要性。因此,原始权重分布经常在进行四舍五入(RTN)量化后无法达到预期的结果。虽然在LLM的量化中引入混合精度和低秩误差近似等技术可以取得改进的结果,但这些方法不可避免地增加了额外的计算开销。另一方面,对于权重量化的传统技术,如生成性后训练量化(Generative Post-Training Quantization),依赖于手动调整权重分布以最小化局部错误,但它们无法实现全局最优结果。虽然最近提出的可学习奇异值增量通过修改权重分布改善了全局权重量化,但它显著扰乱了原始权重分布。这导致了对训练数据的偏见,并可能降低下游任务的性能。本文介绍了一种更多样化的权重分布改进方法,称为奇异值对角扩展(Singular-value Diagonal Expansion),以实现更好的量化对齐。此外,我们引入了跨层学习(Cross-layer Learning),通过更均匀地分配错误到各层来提高整体量化效果。我们的即插即用权重量化方法在状态最前沿的方法,包括OmniQuant、DuQuant和PrefixQuant上表现出显著的性能改进。
arXiv:2407.12665v3 公告类型:替换交叉
摘要:大型语言模型(LLMs)的训练成本高昂已成为下一代LLMs发展的重大瓶颈。在本文中,我们展示了可以在不牺牲性能的情况下显著降低LLMs的训练成本。具体来说,我们引入了LLMs的块级训练方法,即将多个令牌聚合为一个高信息密度单元,称为“块”,作为训练LLMs的基本文本单元。在块级训练过程中,我们向语言模型提供较短的块序列,并训练其预测下一个块,从而以显著降低的成本处理大部分训练数据。随后,模型在剩余的训练数据上继续进行令牌级训练,以与推理模式对齐。在不同规模(370M-2.7B参数)的多种模型上进行的实验表明,块级训练可以将整体训练成本降低至0.5倍,且与令牌级训练相比,不会牺牲模型性能。源代码:https://github.com/shaochenze/PatchTrain。
arXiv:2407.12393v5 人型化类型:替换-交叉
摘要:大型语言模型(LLMs)表现出类似人类的智能,使它们能够模拟人类行为,并支持需要人性化交流和广泛知识储备的各种应用。人们通过特殊训练数据或手工艺品令模型具有人格化特性,但相应地也面临着数据使用不足或行为模式僵化的挑战。因此,人格化的大规模语言模型无法捕捉到人格化的知识或表达持续的意见。为了充分释放大规模语言模型人格化潜力,我们提出了PersLLM,这是一种更好地构建数据和模型微调的框架。对于数据使用不足的问题,我们引入了诸如逻辑推理提示和反归纳等策略,改善了数据构建的质量,更全面地捕捉了人物体验、知识和思想。对于僵化的行为模式,我们设计了调优过程,并引入自动化的DPO,以增强模型人格的特定性和动态性,从而实现更自然的意见交流。自动化的评价指标和专家人工评估都证明了我们方法的有效性。在人机交互和多智能体系统中的案例研究进一步表明了大规模语言模型人格化在潜在应用场景和未来发展方向上的应用前景。
arXiv:2406.02069v4 宣告类型:替换交叉
摘要:在本研究中,我们调查了注意力机制在大型语言模型(LLMs)中是否通过明显的模式汇聚信息以处理长上下文。我们的观察结果表明,LLMs 通过金字塔信息汇聚的方式进行信息聚合,其中注意机制在较低层分散,在逐渐特化的上下文中不断凝聚,最终集中于关键的标记(也称为大规模激活或注意陷阱)上。受到这些洞察的启发,我们开发了 PyramidKV,这是一种新颖且有效的KV缓存压缩方法。该方法在不同层动态调整KV缓存大小,在较低层分配更多缓存,在较高层分配较少缓存,与传统的保持一致KV缓存大小的方法不同。利用 LongBench 基准进行的实验评估显示,PyramidKV 在保持与全KV缓存模型相同性能的同时,仅保留了12%的KV缓存,从而显著减少了内存使用。在强调内存效率的场景中,仅保持0.7%的KV缓存时,PyramidKV 超过了其他KV缓存压缩技术,在TREC数据集上实现了高达20.5的绝对准确率改进。在Needle-in-a-Haystack实验中,PyramidKV 在LLMs中维护长上下文理解方面优于其他方法;值得注意的是,仅保留128个KV缓存条目就使LLAMA-3-70B模型实现了100.0 Acc. 的性能。
arXiv:2406.01698v3 宣布类型: 重新交叉提交
摘要: 大型语言模型(LLMs)在各种应用中表现出色,常常超越人类专家。然而,为了高效地部署这些庞大的模型以满足多样化的推理使用案例,需要精心设计的硬件平台,配备充足的计算、内存和网络资源。随着对LLM服务优化的不断创新和模型架构的发展速度令人难以置信,满足服务级别目标(SLOs)所需的硬件要求仍然是一个待解决的研究问题。
为回答这一问题,我们介绍了一个分析工具GenZ,该工具可以高效地探索不同的LLM模型架构(稠密型、GQA型、MoE型、Mamba型)、LLM服务优化(分块、推测性解码、量化)以及AI平台设计参数之间的关系。我们的工具可以为给定的场景估算LLM推理性能指标。我们已经通过在各种不同的实际硬件平台上运行各种不同的LLM模型进行了验证,最大几何平均误差为5.82。我们使用GenZ来确定在各种不同的LLM推理使用案例中所需的计算能力、内存容量、内存带宽、网络延迟和网络带宽需求。我们还研究了当今使用的各种架构选择(受到几家供应商的LLM服务平台的启发),以帮助指导高级计算机架构师设计下一代AI硬件加速器和平台。从GenZ中获得的趋势和见解可以指导部署LLM的AI工程师以及设计下一代硬件加速器和平台的计算机架构师。最终,这项工作揭示了在一系列应用中充分发挥大型语言模型潜力所需的平台设计考虑因素。源代码可通过https://github.com/abhibambhaniya/GenZ-LLM-Analyzer 获取。用户也可以通过网络浏览器直接尝试https://genz-llm-analyzer.streamlit.app/,无需进行任何设置。
arXiv:2406.00367v2 宣告类型:replace-cross
摘要:有效地分析评论以挖掘latent意图在各个领域的战略决策中具有巨大的价值。然而,情感分析过程中存在多种挑战,包括评论中表现出的词形单词多样性、文本内部的长依赖关系、遇到未知符号和词汇,以及处理不平衡数据集。此外,现有的情感分析任务主要利用顺序模型来编码长依赖文本,这需要更长的执行时间,因为它顺序处理文本。相比之下,Transformer由于其并行处理的特性,所需的执行时间较少。在这项工作中,我们介绍了一种新颖的混合深度学习模型RoBERTa-BiLSTM,该模型将Robustly Optimized BERT Pretraining Approach(RoBERTa)与双向长短期记忆(BiLSTM)网络相结合。RoBERTa用于生成有意义的词嵌入向量,而BiLSTM有效地捕捉长依赖文本的上下文语义。RoBERTa-BiLSTM混合模型利用顺序模型和Transformer模型的优势来提高情感分析的性能。我们使用来自IMDb、Twitter US Airline和Sentiment140的数据集来评估所提出的模型相对于现有最先进的方法的性能。我们的实验结果表明,RoBERTa-BiLSTM模型超越了基线模型(例如,BERT、RoBERTa-base、RoBERTa-GRU、RoBERTa-LSTM),在Twitter US Airline、IMDb和Sentiment140数据集上的准确率分别为80.74%、92.36%和82.25%。此外,该模型在相同的数据集上分别实现了F1分数为80.73%、92.35%和82.25%。
arXiv:2405.17067v2 声明类型: replace-cross
摘要:大型语言模型(LLMs)在语言理解和生成方面展现了显著的能力。然而,也观察到LLMs在对特定查询产生不准确响应方面存在一定的倾向。这种不足可以追溯到LLMs必须经历的分词步骤,这是所有LLMs固有的不可避免的局限性。事实上,不正确的分词是妨碍LLMs精确理解输入的关键点,从而导致了不满意的结果。这一缺陷在中国场景中更为明显。为了展示这一LLMs的缺陷,我们构建了一个对抗数据集,命名为**ADT(对抗分词数据集)**,该数据集利用了各种开源LLMs的词汇库来挑战LLMs的分词能力。ADT包含两个子集:人工构建的ADT-Human和自动生成的ADT-Auto。我们的实证结果表明,我们的ADT在挑战领先LLMs的分词方面非常有效,包括GPT-4o、Llama-3、Deepseek-R1等,从而降低了这些LLMs的能力。此外,我们自动数据生成的方法已被证明是高效且鲁棒的,可以应用于任何开源LLMs。在本文中,我们实质性地调查了LLMs在挑战其分词分割方面的脆弱性,这将为后续通过优化分词过程和算法来提高LLMs的能力的研究提供启示。
arXiv:2405.12961v2 宣布类型: replace-cross
摘要:在化学空间中进行搜索是一个极其具有挑战性的问题,因为可能的分子数量随着原子数量的增加呈组合性增长。大型自回归模型在化学化合物数据库上训练后产生了强大的生成器,但我们仍然缺乏生成具有所需性质分子的稳健策略。这个问题在很大程度上类似于大型语言模型的“对齐”问题,尽管对于许多化学任务,我们都有一个具体且易于评估的回报函数。在这里,我们提出了一种称为能量排名对齐(ERA)的算法,该算法利用显式的回报函数产生基于梯度的目标,我们使用该目标来优化自回归策略。我们理论上证明,该算法与近邻策略优化(PPO)和直接偏好优化(DPO)密切相关,但其实现的优化器收敛于理想中的Gibbs-Boltzmann分布,其中回报扮演着能量函数的角色。此外,该算法具有很高的可扩展性,不需要强化学习,并且在每次配对的偏好观测数量较小时的表现优于DPO。我们使用该方法来对齐分子变换器和蛋白质语言模型,分别生成具有外部指定特性的分子序列和蛋白质序列,并发现它能够稳健地进行搜索,探索化学空间中的多样化区域。
arXiv:2405.04760v4 通告类型: replace-cross
摘要:大型语言模型(LLMs)的迅速发展为人工智能在各个领域中的应用开辟了新机遇,包括网络安全领域。随着网络威胁的数量和复杂性的不断增长,迫切需要智能系统自动检测漏洞、分析恶意软件并应对攻击。在这篇综述中,我们对LLM在网络安全领域的应用进行了全面回顾(LLM4Security)。通过全面收集超过30,000篇相关论文,并系统分析了来自顶级安全和软件工程会议的127篇论文,旨在提供一个全面的视角,展示LLM如何被用于解决网络安全领域的各种问题。通过我们的分析,我们识别出几个关键发现。首先,我们观察到LLM被应用于广泛的安全任务,包括漏洞检测、恶意软件分析、网络入侵检测和钓鱼检测。其次,我们发现用于这些任务中训练和评估LLM的数据集往往规模有限且多样性不足,突显了需要更全面和具有代表性的数据集的需求。第三,我们识别出几种适用于特定网络安全领域的有前途的技术,例如微调、迁移学习和专门领域的预训练。最后,我们讨论了LLM4Security领域未来研究的主要挑战和机遇,包括需要更可解释和可解释的模型,重视解决数据隐私和安全问题的重要性,以及利用LLM进行主动防御和威胁狩猎的潜力。总体而言,我们的综述提供了当前LLM4Security技术的全面概述,并指出了几个值得未来研究的方向。