arXiv 论文列表

揭示和缓解视觉语言模型的安全对齐退化

作者: Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma, Neha Anna John, Srikanth Doss, Lluis Marquez, Miguel Ballesteros, Yassine Benajiba

视觉语言模型 (VLMs) 的安全对齐能力，与它的 LLM 主干相比，由于视觉模块的集成而容易退化。本文研究了这种现象，称为“安全对齐退化”，并表明这种挑战源于在 VLM 中引入视觉模态时出现的表征差距。具体来说，我们表明，多模态输入的表征偏离了纯文本输入的表征，而纯文本输入代表了 LLM 主干优化的分布。与此同时，最初在文本嵌入空间中开发的安全对齐能力无法成功地转移到这个新的多模态表征空间。为了减少安全对齐退化，我们引入了跨模态表征操作 (CMRM)，这是一种推理时表征干预方法，用于恢复 VLM 的 LLM 主干固有的安全对齐能力，同时保留 VLM 的功能能力。实证结果表明，我们的框架显著恢复了从 LLM 主干继承的对齐能力，对预训练 VLM 的流畅性和语言能力的影响最小，即使没有额外的训练。具体来说，LLaVA-7B 在多模态输入上的不安全率可以从 61.53% 降至 3.15%，仅通过推理时干预。

发布时间: 10/14/2024

查看原文

车载网络入侵检测的变革：基于变分自编码器的知识蒸馏与可解释人工智能

作者: Muhammet Anil Yagiz, Pedram MohajerAnsari, Mert D. Pese, Polat Goktas

在不断发展的自动驾驶汽车领域，确保车载网络 (IVN) 的安全至关重要。本文介绍了一种名为 KD-XVAE 的先进入侵检测系统 (IDS)，该系统采用基于变分自动编码器 (VAE) 的知识蒸馏方法来提高性能和效率。我们的模型显著降低了复杂性，仅使用 1669 个参数，推理时间为每批次 0.3 毫秒，非常适合资源受限的汽车环境。在 HCRL 汽车黑客数据集中的评估表明了其卓越的能力，在多种攻击类型（包括 DoS、模糊测试、齿轮欺骗和 RPM 欺骗）下，实现了完美得分（召回率、精度、F1 分数均为 100%，FNR 为 0%）。在 CICIoV2024 数据集上的比较分析进一步突出了其优于传统机器学习模型的优势，实现了完美的检测指标。我们还集成了可解释 AI (XAI) 技术，以确保模型决策的透明度。VAE 将原始特征空间压缩到一个潜在空间中，然后在该潜在空间上训练蒸馏模型。SHAP (SHapley Additive exPlanations) 值提供了对每个潜在维度重要性的见解，映射回原始特征以实现直观的理解。我们的论文通过整合最先进的技术，解决了在自动驾驶汽车中部署高效、可信赖和可靠的 IDS 的关键挑战，从而确保了对新兴网络威胁的增强保护。

发布时间: 10/14/2024

查看原文

SimpleStrat：基于分层策略的多样化语言模型生成

作者: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

从大型语言模型 (LLM) 生成多样化的响应对于规划/搜索和合成数据生成等应用至关重要，因为多样性在不同生成中提供了不同的答案。先前的方法依赖于提高温度来增加多样性。然而，与普遍看法相反，我们表明，这种方法不仅会导致随着温度升高而生成质量下降，而且还取决于模型的下一个词概率是否与答案的真实分布相似。我们提出了 \method{}，一种使用语言模型本身将空间划分为地层的替代方法。在推理时，随机选择一个地层，并在该地层内进行抽样。为了衡量多样性，我们引入了 CoverageQA，这是一个包含多个同样合理的答案的未完全指定问题的集合，并通过测量输出分布与有效地面真值答案的均匀分布之间的 KL 散度来评估多样性。由于计算专有模型的每个响应/解决方案的概率是不可行的，因此我们测量地面真值解决方案的召回率。我们的评估表明，使用 SimpleStrat 与 GPT-4o 相比召回率提高了 0.05，与 Llama 3 相比，KL 散度平均降低了 0.36。

发布时间: 10/14/2024

查看原文

导师式知识蒸馏：打造更强大的多步推理小型语言模型

作者: Hojae Lee, Junho Kim, SangKeun Lee

大型语言模型 (LLM) 通过利用思维链 (CoT) 提示在各种复杂任务中展现出非凡的性能。最近，一些研究提出了知识蒸馏 (KD) 方法，即推理蒸馏，通过微调由 LLM 教师生成的多个步骤的推理来转移 LLM 的这种推理能力。然而，他们没有充分考虑 LLM 教师模型中推理蒸馏集不足的两个挑战，即 1) 数据质量和 2) 软标签提供。在本文中，我们提出了 Mentor-KD，它有效地将 LLM 的多步骤推理能力蒸馏到更小的 LM 中，同时解决了上述挑战。具体来说，我们利用一个导师，即一个中间规模的特定任务微调模型，来增强额外的 CoT 注释，并在推理蒸馏期间为学生模型提供软标签。我们进行了大量的实验，并证实了 Mentor-KD 在各种模型和复杂推理任务中的有效性。

发布时间: 10/14/2024

查看原文

PEAR：一种基于多个大型语言模型代理的鲁棒且灵活的相干衍射成像自动化框架

作者: Xiangyu Yin, Chuqiao Shi, Yimo Han, Yi Jiang

相位恢复成像是一种先进的计算成像技术，应用于 X 射线和电子显微镜领域。该技术已广泛应用于物理、化学、生物学和材料科学等多个科研领域，以及半导体表征等工业应用。在实际应用中，获得高质量的相位恢复成像图像需要同时优化大量的实验和算法参数。传统上，参数选择通常依赖于试错法，导致工作流程效率低下，并可能产生人为偏差。在这项工作中，我们开发了“相位恢复成像实验与分析机器人”（PEAR）框架，该框架利用大型语言模型（LLM）来自动化相位恢复成像中的数据分析。为了确保高鲁棒性和准确性，PEAR 采用多个 LLM 代理来执行任务，包括知识检索、代码生成、参数推荐和图像推理。我们的研究表明，PEAR 的多代理设计显著提高了工作流程成功率，即使使用较小的开放权重模型，例如 LLaMA 3.1 8B。PEAR 还支持多种自动化级别，并设计为与定制的本地知识库一起使用，确保在不同研究环境中的灵活性和适应性。

发布时间: 10/14/2024

查看原文

AgentHarm：用于评估 LLM 代理有害性的基准测试

作者: Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法……

发布时间: 10/14/2024

查看原文

软件工程与基础模型：利用基础模型评审团从行业博客中获取洞察

作者: Hao Li, Cor-Paul Bezemer, Ahmed E. Hassan

基础模型（例如大型语言模型）对许多领域产生了重大影响，包括软件工程 (SE)。SE 和基础模型之间的交互导致了将基础模型集成到 SE 实践中 (FM4SE)，以及将 SE 方法应用于基础模型 (SE4FM)。虽然关于这些趋势的学术贡献的文献综述已经存在，但我们是第一个提供实践者观点的。我们分析了来自领先科技公司的 155 篇 FM4SE 博客文章和 997 篇 SE4FM 博客文章，利用基础模型驱动的调查方法对讨论的活动和任务进行系统标记和总结。我们观察到，虽然代码生成是最突出的 FM4SE 任务，但基础模型也用于许多其他 SE 活动，例如代码理解、摘要和 API 推荐。大多数关于 SE4FM 的博客文章都关于模型部署和运行以及系统架构和编排。虽然重点是云部署，但对压缩基础模型并将其部署到较小的设备（如边缘设备或移动设备）的兴趣正在增长。我们根据获得的见解概述了八个未来的研究方向，旨在弥合学术发现与现实世界应用之间的差距。我们的研究不仅丰富了关于 FM4SE 和 SE4FM 的实际应用的知识体系，而且证明了基础模型作为一种强大而高效的方法在技术和灰色文献领域进行文献综述的效用。我们的数据集、结果、代码和使用的提示可以在我们的在线复制包中找到，地址为：https://github.com/SAILResearch/fmse-blogs。

发布时间: 10/14/2024

查看原文

分层通用价值函数逼近器

作者: Rushiv Arora

针对多目标强化学习价值函数集合构建通用逼近器的研究取得了重大进展，这些价值函数是参数化估计状态长期回报的关键要素。我们通过引入分层通用价值函数逼近器（H-UVFAs）将此扩展到分层强化学习中，使用选项框架。这使我们能够利用时间抽象设置中预期的扩展、规划和泛化等额外优势。我们开发了监督学习和强化学习方法，用于学习两个分层价值函数中状态、目标、选项和动作的嵌入：$Q(s, g, o; \theta)$ 和 $Q(s, g, o, a; \theta)$。最后，我们证明了 HUVFAs 的泛化能力，并表明它们优于相应的 UVFAs。

发布时间: 10/14/2024

查看原文

大型语言模型的词语空间结构

作者: Michael Robinson, Sourya Dey, Shauna Sweet

大型语言模型通过将语言片段（词元）拟合到高维潜在空间中来编码自然语言中存在的相关结构，然后模型在此空间中进行操作。我们认为，为了对大型语言模型的行为和局限性进行基础性的、第一性原理的理解，理解该词元子空间的拓扑和几何结构至关重要。在这篇文章中，我们提出了词元子空间维数和 Ricci 标量曲率的估计器，并将其应用于三个中等规模的开源大型语言模型：GPT2、LLEMA7B 和 MISTRAL7B。在这三个模型中，使用这些测量方法，我们发现词元子空间不是一个流形，而是一个分层流形，在每个单独的层中，Ricci 曲率都显著为负。我们还发现，维数和曲率与模型的生成流畅度相关，这表明这些发现对模型行为有影响。

发布时间: 10/14/2024

查看原文

SubZero：用于内存高效 LLM 微调的随机子空间零阶优化

作者: Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Hua Huang

大型语言模型（LLMs）的微调已被证明对各种下游任务有效。然而，随着 LLMs 规模的增长，反向传播的内存需求变得越来越高。零阶（ZO）优化方法通过使用前向传递来估计梯度，提供了一种内存高效的替代方案，但梯度估计的方差通常与模型的参数维度成线性关系——这对 LLMs 来说是一个重大问题。在本文中，我们提出了随机子空间零阶（SubZero）优化来解决 LLMs 高维带来的挑战。我们引入了一种针对 LLMs 量身定制的低秩扰动，它可以显著减少内存消耗，同时提高训练性能。此外，我们证明了我们的梯度估计非常接近反向传播梯度，表现出比传统 ZO 方法更低的方差，并且在与 SGD 结合使用时可以确保收敛。实验结果表明，与 MeZO 等标准 ZO 方法相比，SubZero 在各种语言建模任务中提高了微调性能，并实现了更快的收敛速度。

发布时间: 10/14/2024

查看原文