LLM2D

arXiv 论文列表

作者: Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen
大型语言模型 (LLM) 在各种任务和专业领域中表现出色,基于现有模型扩展 LLM 已引起广泛关注,但面临着组合不同模型时性能下降的挑战。针对预训练 LLM 的聚合,已经提出了多种技术,包括模型合并、专家混合和堆叠。尽管这些技术具有优势,但对其在不同模型库上的全面比较和协同应用尚未得到充分解决。鉴于这一研究空白,本文介绍了 Model-GLUE,一个全面的 LLM 扩展指南。首先,我们的工作从对现有 LLM 扩展技术的基准测试开始,特别是选择性合并和混合的变体。利用基准测试结果的见解,我们制定了针对不同架构和初始化的异构模型库的选择和聚合策略。我们的方法包括可合并模型的聚类和最佳合并策略选择,以及通过模型混合整合聚类。最后,通过我们在基于 Llama-2 的多样化模型库上的实验证明,Model-GLUE 在没有额外训练的情况下,平均性能提升了 5.61%。代码可在以下地址获取:https://github.com/Model-GLUE/Model-GLUE。
发布时间: 10/10/2024
查看原文
恶意
发布时间: 10/10/2024
查看原文
作者: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid
在本技术报告中,我们介绍了 Falcon Mamba 7B,一个基于新型 Mamba 架构的新型基础大型语言模型。Falcon Mamba 7B 在 5.8 万亿个经过精心挑选的数据混合体上进行训练。作为纯粹的基于 Mamba 的模型,Falcon Mamba 7B 超越了基于 Transformer 的领先开放权重模型,例如 Mistral 7B、Llama3.1 8B 和 Falcon2 11B。它与 Gemma 7B 相当,并且优于具有不同架构设计的模型,例如 RecurrentGemma 9B 和 RWKV-v6 Finch 7B/14B。根据 Open LLM 排行榜,目前,Falcon Mamba 7B 是文献中此规模表现最佳的 Mamba 模型,超越了现有的 Mamba 和混合 Mamba-Transformer 模型。由于其架构,Falcon Mamba 7B 在推理方面速度明显更快,并且在长序列生成方面所需的内存明显更少。尽管最近的研究表明混合 Mamba-Transformer 模型优于纯架构设计,但我们证明即使是纯 Mamba 设计也能实现与 Transformer 和混合设计类似甚至更好的结果。我们以许可证形式在 https://huggingface.co/tiiuae/falcon-mamba-7b 上公开发布了我们对 Falcon Mamba 7B 实现的权重。
发布时间: 10/10/2024
查看原文
作者: Yifan Wang, Cheng Zhang, Yuanndong Zhuang, Yongming Huang
支持人工智能的无线网络引起了广泛关注,其中,由于其独特的传输和分布式计算特性,空口联邦学习成为一项关键应用。本文推导了空口联邦学习在无小区 MIMO 系统中的误差界限,并通过联合优化功率控制和波束成形,制定了一个优化问题以最小化最优性差距。我们引入了 MOP-LOFPC 算法,该算法采用 Lyapunov 优化将跨轮的长期约束解耦,同时仅需因果信道状态信息。实验结果表明,与现有基线相比,MOP-LOFPC 在模型训练损失和对长期功率约束的遵守之间实现了更好、更灵活的权衡。
发布时间: 10/10/2024
查看原文
作者: Francesco Riccardo Crescenzi
机器学习研究的空前速度带来了令人难以置信的进步,但也带来了巨大的挑战。目前,该领域缺乏坚实的理论基础,许多重要成就源于难以在原则上证明的随意设计选择,其有效性往往无法解释。研究债务正在增加,许多论文被发现无法复制。 本论文是对试图从范畴论角度研究机器学习的一些最新工作的综述。范畴论是抽象数学的一个分支,已在许多领域(包括数学领域内外)找到了成功的应用。作为数学和科学的通用语言,范畴论或许能够为机器学习领域提供一个统一的结构。这可以解决上述一些问题。 在这项工作中,我们主要关注范畴论在深度学习中的应用。具体来说,我们讨论了使用范畴光学来建模基于梯度的学习,使用范畴代数和积分变换来将经典计算机科学与神经网络联系起来,使用函子来连接不同的抽象层并保留结构,最后,使用字符串图来提供神经网络架构的详细表示。
发布时间: 10/10/2024
查看原文
作者: Dianzhi Yu, Xinni Zhang, Yankai Chen, Aiwei Liu, Yifei Zhang, Philip S. Yu, Irwin King
持续学习 (CL) 旨在赋予机器学习模型从新数据中持续学习的能力,同时在不遗忘之前习得的知识的基础上进行学习。随着机器学习模型从小型预训练架构发展到大型预训练架构,以及从支持单模态数据发展到支持多模态数据,多模态持续学习 (MMCL) 方法最近出现了。MMCL 的主要挑战在于它不仅仅是简单地堆叠单模态 CL 方法,因为这种直接的方法往往会产生不令人满意的性能。在这项工作中,我们首次对 MMCL 进行了全面的综述。我们提供了必要的背景知识和 MMCL 设置,以及 MMCL 方法的结构化分类。我们将现有的 MMCL 方法分为四类,即正则化方法、架构方法、重放方法和提示方法,解释了它们的方法论并突出了它们的关键创新。此外,为了促进该领域进一步的研究,我们总结了开放的 MMCL 数据集和基准,并讨论了几种有希望的未来研究和发展方向。我们还创建了一个 GitHub 仓库来索引相关的 MMCL 论文和开放资源,可在 https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning 获取。
发布时间: 10/10/2024
查看原文
作者: Kacper Sowka, Vasile Palade, Xiaorui Jiang, Hesam Jadidbonab
本文探讨了利用预训练语言模型和孪生网络来辨别文本形式的网络安全漏洞数据之间的兄弟关系。本文提出的方法的最终目的是基于一组描述给定系统中潜在/已观察到的漏洞的文本描述构建分层攻击模型。由于数据的性质以及问题所处的敏感的不确定性环境,需要采用面向实践的软计算方法。因此,本工作的重点是调查围绕预测链接可靠性的实际问题,以构建此类模型,为此,概述了与所提出方法相关的概念和实际挑战以及解决方案,例如数据集复杂性和预测的稳定性。因此,本文的贡献集中在使用预训练语言模型生成神经网络来预测网络安全漏洞之间的兄弟关系,然后概述如何将此功能应用于生成分层攻击模型。此外,还概述了两种用于解决数据复杂性的数据采样机制,以及一种用于减少误报预测数量的共识机制。使用来自三组网络安全数据的经验结果对每种方法进行了比较和对比,以确定其有效性。
发布时间: 10/10/2024
查看原文
作者: Tatjana Wingarz, Anne Lauscher, Janick Edinger, Dominik Kaaser, Stefan Schulte, Mathias Fischer
先进的 AI 应用已日益普及,例如集中管理的大型语言模型 (LLMs)。这种集中化既是风险,也是性能瓶颈——边缘 AI 有望解决这些问题。然而,其去中心化方法带来了安全性和可靠性方面的额外挑战。本文论证了这两个方面对于边缘 AI 至关重要,并且更重要的是,它们的集成。具体来说,我们调查了安全和可靠性威胁,总结了现有的应对措施,并收集了开放性挑战,呼吁在该领域进行更多研究。
发布时间: 10/10/2024
查看原文
作者: Tai-Lin Wu, Ti-Rong Wu, Chung-Chin Shih, Yan-Ru Ju, I-Chen Wu
尽管 AlphaZero 在围棋方面已达到超越人类的水平,但最近的研究表明,在需要对整个棋盘进行更全面理解的特定情况下,它存在弱点。为了解决这一挑战,本文介绍了 ResTNet,一个将残差网络和 Transformer 交织在一起的网络。我们的实证实验表明使用 ResTNet 的几个优势。首先,它不仅提高了棋力,还增强了全局信息的能力。其次,它能够防御针对 AlphaZero 算法量身定制的对手围棋程序——循环对抗,显著降低了被攻击的平均概率,从 70.44% 降至 23.91%。第三,它将正确识别梯子图案的准确率从 59.15% 提高到 80.01%,而梯子图案是围棋 AI 中的一种具有挑战性的图案。最后,ResTNet 提供了对决策过程的潜在解释,也可以应用于其他游戏,例如六角棋。据我们所知,ResTNet 是第一个在 AlphaZero 的背景下将残差网络和 Transformer 整合到棋盘游戏中的网络,这为增强 AlphaZero 的全局理解提供了有希望的方向。
发布时间: 10/10/2024
查看原文
作者: Jiaming Zhang, Junhong Ye, Xingjun Ma, Yige Li, Yunfan Yang, Jitao Sang, Dit-Yan Yeung
arXiv:2410.05346v1 宣告类型: cross 摘要: 由于其多模态能力,视觉语言模型(VLMs)在实际应用场景中找到了许多重要应用。然而,最近的研究发现,VLMs 对基于图像的对抗攻击尤其易受攻击,尤其是那些能够操纵模型生成由攻击者指定有害内容的目标攻击图像。当前的攻击方法依赖于预定义的目标标签来创建目标导向的对抗攻击,这限制了它们在大规模鲁棒性评估中的可扩展性和适用性。在这篇论文中,我们提出了一种名为 AnyAttack 的自监督框架,该框架在无需标签监督的情况下生成针对 VLMs 的目标导向的对抗图像,使得任何图像都可以作为攻击的目标。为了解决现有方法需要标签监督的限制,我们引入了一种对比损失,用于在大量未标注图像数据集 LAION-400M 数据集上训练生成器,以生成目标导向的对抗噪声。这种大规模预训练赋予了我们的方法在各种 VLMs 上的强大迁移性。在五个主流开源 VLMs(CLIP、BLIP、BLIP2、InstructBLIP 和 MiniGPT-4)的三个多模态任务(图像-文本检索、多模态分类和图像字幕生成)上的广泛实验表明了我们攻击的有效性。此外,我们成功地将 AnyAttack 转移到了多个商用 VLMs,包括 Google 的 Gemini、Claude 的 Sonnet 和 Microsoft 的 Copilot。这些结果揭示了 VLMs 前所未有的风险,突显了有效对策的必要性。
发布时间: 10/10/2024
查看原文