LLM2D

arXiv 论文列表

作者: Satyandra Guthula, Roman Beltiukov, Navya Battula, Wenbo Guo, Arpit Gupta
开发适用于网络安全中不同学习问题的通用化基于机器学习的解决方案非常需要。然而,尽管机器学习在网络安全领域有着悠久的应用历史,但大多数现有解决方案都缺乏泛化能力。这一进展的缺乏可归因于过度依赖监督学习技术以及与之相关的精心策划良好指定标记训练数据的挑战。本文通过引入一种新颖的基于Transformer的网络基础模型netFound来解决这一根本差距。我们利用丰富的未标记网络遥测数据进行自监督学习预训练。此预训练模型随后可以微调,以创建用于不同学习任务的通用化学习工件,即使使用常见但具有挑战性的标记数据集(这些数据集稀疏、嘈杂且存在偏差)。为了实现这一目标,netFound通过开发多模态嵌入、协议感知标记化、数据驱动标记组合和分层Transformer,利用网络数据(数据包跟踪)特有的各种特定领域属性和约束。我们的结果表明,netFound的特定领域设计选择确保其:(1)有效捕获生产环境中的隐藏网络上下文;(2)在五个不同的学习任务上优于四种不同的最先进方法;(3)对噪声标签和学习捷径具有鲁棒性——这对于在实际环境中开发通用的机器学习模型至关重要。
发布时间: 10/10/2024
查看原文
作者: Tianyi Lu, Xing Zhang, Jiaxi Gu, Renjing Pei, Songcen Xu, Xingjun Ma, Hang Xu, Zuxuan Wu
潜在扩散模型(LDM)以其强大的图像和视频合成能力而闻名。然而,与文本到图像(T2I)编辑相比,文本到视频(T2V)编辑由于预训练数据不足、模型可编辑性有限或调整成本过高,缺乏良好的时间一致性和结构。为了解决这一差距,我们提出了FLDMs(融合潜在扩散模型),这是一个免训练框架,通过集成各种T2I和T2V LDM来实现高质量的T2V编辑。具体来说,FLDMs利用具有更新计划的超参数,在去噪过程中有效地融合图像和视频潜在变量。本文首次揭示了T2I和T2V LDM在结构和时间一致性方面可以互补,最终生成高质量的视频。值得注意的是,FLDMs可以用作通用的插件,适用于现成的图像和视频LDM,以显著提高视频编辑质量。在流行的T2I和T2V LDM上进行的大量定量和定性实验表明,FLDMs的编辑质量优于最先进的T2V编辑方法。我们的项目代码可在https://github.com/lutianyi0603/fuse_your_latents获取。
发布时间: 10/10/2024
查看原文
作者: Stephen Choi, William Gazeley, Siu Ho Wong, Tingting Li
本文介绍了一种名为“会话式因素信息检索方法”(ConFIRM)的新方法,该方法用于微调大型语言模型(LLM)以执行特定领域的检索任务。ConFIRM 利用人格五因素模型生成合成数据集,准确反映目标人群特征,从而解决专业领域数据稀缺的问题。我们通过一个金融领域的案例研究证明了 ConFIRM 的有效性,该研究使用来自香港理工大学 Asklora 金融科技采用指数的人格一致性数据微调 Llama-2-7b 模型。生成的模型在金融查询分类中的准确率达到 91%,在 NVIDIA A100 GPU 上的平均推理时间为 0.61 秒。ConFIRM 为创建更准确和个性化的 AI 驱动信息检索系统提供了希望,有可能减轻在已部署的 LLM 中出现的幻觉和信息过时等问题。
发布时间: 10/10/2024
查看原文
作者: Shanshan Han, Wenxuan Wu, Baturalp Buyukates, Weizhao Jin, Qifan Zhang, Yuhang Yao, Salman Avestimehr, Chaoyang He
联邦学习(FL)系统容易受到对抗性攻击,恶意客户端会提交中毒模型来破坏收敛或植入后门,导致全局模型对某些样本进行错误分类。目前的防御方法对于现实世界的FL系统往往不切实际,因为它们要么依赖于不切实际的先验知识,要么即使在没有攻击的情况下也会导致精度损失。此外,这些方法缺乏验证执行的协议,使参与者不确定机制的正确执行。为了应对这些挑战,我们提出了一种针对现实世界FL系统的新型异常检测策略。我们的方法仅在检测到潜在攻击时才激活防御,并能够去除恶意模型而不影响良性模型。此外,我们结合零知识证明来确保所提出的防御机制的完整性。实验结果证明了我们的方法在增强FL系统针对各种机器学习任务中一系列全面对抗性攻击的安全性方面的有效性。
发布时间: 10/10/2024
查看原文
作者: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv, Yi Liu
大型语言模型 (LLM) 在语言相关任务中展现出卓越的能力,但其部署由于巨大的内存和存储需求而面临着重大挑战。仅权重量化已成为一种很有前景的解决方案,它在不牺牲太多性能的情况下显著降低了内存和存储需求。在本研究中,我们介绍了 SignRound,这是一种利用符号梯度下降 (SignSGD) 在仅 200 步内优化舍入值和权重裁剪的方法。SignRound 集成了量化感知训练 (QAT) 和训练后量化 (PTQ) 的优点,在 2 到 4 位上提供了卓越的结果,同时最大限度地降低了调优成本并避免了额外的推理开销。例如,根据 11 个任务的平均零样本准确率衡量,SignRound 在 2 位时实现了 6.91% 到 33.22% 的绝对平均准确率提升。它还在最近的模型中展现出强大的泛化能力,在大多数情况下实现了接近无损的 4 位量化。源代码可在 https://github.com/intel/auto-round 公开获取。
发布时间: 10/10/2024
查看原文
作者: Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu
ChatGPT凭借其令人印象深刻的性能赢得了广泛关注;然而,人们越来越担心其潜在风险,尤其是在检测AI生成内容 (AIGC) 方面,对于未经训练的个人来说,这通常是一项具有挑战性的任务。目前用于检测ChatGPT生成文本的数据集主要关注问答任务,常常忽略具有语义不变性的任务,例如摘要、翻译和释义。本文证明,在语义不变的任务中检测模型生成的文本更具挑战性。为了解决这一差距,我们引入了一个更广泛、更全面的数据集,该数据集包含比以往工作更广泛的任务,包括那些具有语义不变性的任务。此外,指令微调已在各种任务中展现出优越的性能。在本文中,我们探讨了使用指令微调模型来检测ChatGPT生成的文本。
发布时间: 10/10/2024
查看原文
本研究考虑使用高表达能力的神经网络进行抗异常值预测建模。为此,我们采用了 (1) 变换修剪损失 (TTL),它是经典修剪损失的一种计算可行的变体,以及 (2) 预测模型的高阶变分正则化 (HOVR)。需要注意的是,仅使用 TTL 来训练神经网络可能会存在异常值脆弱性,因为其高表达能力会导致它甚至完美地过拟合异常值。然而,同时引入 HOVR 则限制了有效自由度,从而避免拟合异常值。我们新提出了一种有效的随机优化算法及其理论收敛性保证。(*两位作者对这项工作贡献相同。)
发布时间: 10/10/2024
查看原文
作者: Alexander Grushin, Walt Woods, Alvaro Velasquez, Simon Khan
任何自主控制器在某些情况下都是不安全的。定量识别这些不安全情况即将发生的能力对于及时进行人工监督至关重要,例如在货运运输应用中。在这项工作中,我们证明了代理情况的真实临界性可以稳健地定义为给定一定数量的随机动作后奖励的平均减少量。可以将实时可计算的代理临界性指标(即,无需实际模拟随机动作的影响)与真实临界性进行比较,我们展示了如何利用这些代理指标生成安全裕度,这直接将潜在错误动作的后果与预期的整体性能损失联系起来。我们在 Atari 环境中评估了来自 APE-X 和 A3C 的学习策略,并演示了安全裕度如何随着代理接近故障状态而减小。将安全裕度集成到用于监控已部署代理的程序中,允许实时识别潜在的灾难性情况。
发布时间: 10/10/2024
查看原文
作者: F. V. Difonzo, M. Roubalik, J. Marecek
虚拟电厂和负荷聚合正变得越来越普遍。在这种情况下,人们会调节分布式能源 (DER) 集成的总功率输出。Marecek等人[《自动化》,第147卷,2023年1月,110743,arXiv:2110.03001]最近提出,应该存在长期平均价格或激励,并且与DER运营商、聚合商和电网的初始状态无关。这可以看作是可预测性,它是公平性的基础。不幸的是,许多传统的调节器(包括带或不带死区的比例积分(PI)调节器)都不能保证这种平均值的稳定存在。在这里,我们考虑了交流模型中的损耗和控制器中的死区的影响。这产生了一个非线性动力系统(由于非线性损耗)并表现出不连续性(由于死区)。我们证明了Filippov不变测度能够在考虑交流模型的非线性和死区的同时,对可预测性和公平性进行推理。
发布时间: 10/10/2024
查看原文
作者: Zhe Chen, Hao Tan, Tao Wang, Tianrun Shen, Tong Lu, Qiuying Peng, Cheng Cheng, Yue Qi
本文提出了一种用于图表示学习的新型Transformer架构。我们的方法的核心思想是在构建Transformer模块中的注意力机制时,充分考虑图中节点和边之间的信息传播。具体来说,我们提出了一种新的注意力机制,称为图传播注意力(GPA)。它通过三种方式明确地传递节点和边之间的信息,即节点到节点、节点到边和边到节点,这对于学习图结构数据至关重要。在此基础上,我们设计了一个名为图传播Transformer(GPTrans)的有效Transformer架构,以进一步帮助学习图数据。我们在几个基准数据集上进行了广泛的图学习实验,验证了GPTrans的性能。结果表明,我们的方法优于许多最先进的基于Transformer的图模型,并取得了更好的性能。代码将发布在https://github.com/czczup/GPTrans。
发布时间: 10/10/2024
查看原文