arXiv 论文列表

作者: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong

本文提出了一种基于子空间的低秩自适应 (LoRA) 方法，该方法计算效率高、易于实现，并且易于应用于大型语言模型、多模态模型和扩散模型。首先，我们将 LoRA 的权重等效地分解为两个子空间，并发现简单地混合它们可以提高性能。为了研究这种现象，我们通过细粒度的子空间视角重新审视它，表明这种修改等效于使用固定混合器来融合子空间。为了更灵活，我们与原始 LoRA 权重一起学习混合器，并将该方法称为子空间混合 LoRA (MoSLoRA)。MoSLoRA 在不同模态的任务中始终优于 LoRA，包括常识推理、视觉指令微调和主题驱动的文本到图像生成，证明了其有效性和鲁棒性。代码可在 https://github.com/wutaiqiang/MoSLoRA 获取。

发布时间: 10/8/2024

查看原文

mDPO：面向多模态大型语言模型的条件偏好优化

作者: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

直接偏好优化 (DPO) 已经被证明是大型语言模型 (LLM) 对齐的有效方法。最近的研究试图将 DPO 应用于多模态场景，但发现难以实现一致的改进。通过比较实验，我们识别了多模态偏好优化中的无条件偏好问题，即模型忽略了图像条件。为了解决这个问题，我们提出了 mDPO，一种多模态 DPO 目标，它通过优化图像偏好来防止过度优先考虑仅语言偏好。此外，我们引入了一个奖励锚点，迫使奖励对选择的响应保持为正，从而避免其可能性降低——这是相对偏好优化的一个固有问题。在两种不同大小的多模态 LLM 和三个广泛使用的基准上的实验表明，mDPO 有效地解决了多模态偏好优化中的无条件偏好问题，并显着提高了模型性能，尤其是在减少幻觉方面。

发布时间: 10/8/2024

查看原文

多阶段语言模型程序的指令和演示优化

作者: Krista Opsahl-Ong, Michael J Ryan, Josh Purtell, David Broman, Christopher Potts, Matei Zaharia, Omar Khattab

语言模型程序，即由模块化语言模型 (LM) 调用组成的复杂管道，正在不断推进 NLP 任务，但它们需要精心设计对所有模块都有效的提示。我们研究了 LM 程序的提示优化，即如何在没有模块级标签或梯度的情况下更新这些提示以最大化下游指标。为了使问题变得易于处理，我们将问题分解为优化每个模块的自由形式指令和少量样本演示，并引入了多种策略来制定任务相关的指令并处理跨模块的信贷分配。我们的策略包括：(i) 用于提出有效指令的程序和数据感知技术，(ii) 用于学习目标代理模型的随机小批量评估函数，以及 (iii) 我们改进 LM 随着时间推移构建提议的方式的元优化程序。利用这些见解，我们开发了 MIPRO，一种用于优化 LM 程序的新型算法。MIPRO 在七个不同的多阶段 LM 程序中的五个程序中优于基线优化器，使用最佳的开源模型 (Llama-3-8B)，准确率提高了 13%。我们已将我们的新优化器和基准发布到 DSPy 上，网址为 http://dspy.ai。

发布时间: 10/8/2024

查看原文

ExPLoRA：参数高效的扩展预训练，用于在领域迁移下调整视觉Transformer

作者: Samar Khanna, Medhanie Irgau, David B. Lobell, Stefano Ermon

参数高效微调（PEFT）技术，如低秩自适应（LoRA），可以有效地将大型预训练基础模型适应到下游任务，只需使用原始可训练权重的很小一部分（0.1%-10%）。PEFT的一个未充分探索的问题是在没有监督标签的情况下扩展预训练阶段；也就是说，我们能否通过在这个新领域上进行高效的自监督预训练，将预训练的基础模型适应到一个新的领域？在这项工作中，我们介绍了 ExPLoRA，这是一种高度有效的技术，可以改善预训练视觉转换器 (ViT) 在域偏移情况下的迁移学习。ExPLoRA 使用在大型自然图像数据集（如 DinoV2 或 MAE）上预训练的权重初始化 ViT，然后在新的领域继续进行无监督的预训练目标，解冻 1-2 个预训练的 ViT 块，并使用 LoRA 调整所有其他层。然后，我们仅使用 LoRA 在这个新领域上对得到的模型进行微调，以进行监督学习。我们的实验表明，在卫星图像上取得了最先进的结果，甚至超过了完全预训练和微调 ViT。使用 DinoV2 训练目标，我们证明在下游任务中线性探测 top-1 准确率提高了 7.5%，同时使用的参数数量不到先前完全微调的最先进方法的 10%。我们的消融研究证实了我们的方法相对于其他基线的有效性，包括 PEFT 和解冻更多 ViT 块。代码可在项目网站上获取：https://samar-khanna.github.io/ExPLoRA/

发布时间: 10/8/2024

查看原文

理解越狱成功：大型语言模型潜在空间动力学研究

作者: Sarah Ball, Frauke Kreuter, Nina Panickssery

对话式大型语言模型被训练成拒绝回答有害问题。然而，新出现的越狱技术仍然可以诱发不安全的输出，这对模型对齐提出了持续的挑战。为了更好地理解不同越狱类型如何绕过安全措施，本文分析了模型在不同越狱输入上的激活情况。我们发现，可以从一类越狱中提取出一个越狱向量，该向量可以有效地减轻其他语义上不同的越狱类别带来的越狱效果。这可能表明不同类型的有效越狱是通过类似的内部机制运作的。我们调查了潜在的共同机制，即有害特征抑制，并找到了证据表明，有效的越狱显着降低了模型对提示有害性的感知。这些发现为开发更强大的越狱防御措施提供了可操作的见解，并为更深入地、机制性地理解语言模型中的越狱动态奠定了基础。

发布时间: 10/8/2024

查看原文

鹊桥：通过提示对齐的 LLM 从头开始合成对齐数据

作者: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin

高质量的指令数据对于对齐大型语言模型 (LLM) 至关重要。尽管一些模型，例如 Llama-3-Instruct，具有开放权重，但其对齐数据仍然是私有的，这阻碍了人工智能的民主化。高昂的人工成本以及有限的、预定义的提示范围，使得现有的开源数据创建方法难以有效地扩展，这可能会限制公共对齐数据集的多样性和质量。是否可以通过直接从对齐的 LLM 中提取数据来大规模合成高质量的指令数据？我们提出了一种名为 Magpie 的自合成方法，用于生成大规模对齐数据。我们的关键观察结果是，对齐的 LLM，如 Llama-3-Instruct，可以在我们仅输入左侧模板到为用户消息保留的位置时生成用户查询，这得益于其自回归性质。我们使用此方法提示 Llama-3-Instruct 并生成 400 万条指令及其对应的响应。我们对提取的数据进行了全面分析，并选择了 30 万个高质量实例。为了比较 Magpie 数据与其他公共指令数据集，我们使用每个数据集微调 Llama-3-8B-Base，并评估微调模型的性能。我们的结果表明，在某些任务中，使用 Magpie 微调的模型与官方 Llama-3-8B-Instruct 的性能相当，尽管后者通过监督微调 (SFT) 和随后的反馈学习增强了 1000 万个数据点。我们还表明，仅将 Magpie 用于 SFT 可以超过以前用于 SFT 和偏好优化的公共数据集的性能，例如使用 UltraFeedback 的直接偏好优化。这种优势在 AlpacaEval、ArenaHard 和 WildBench 等对齐基准测试中很明显。

发布时间: 10/8/2024

查看原文

大型语言模型中的测试时公平性和鲁棒性

作者: Leonardo Cotta, Chris J. Maddison

最前沿的大型语言模型（LLM）可能会存在社会歧视或对输入的虚假特征敏感。由于只有资源充足的企业才能训练最前沿的 LLM，因此我们需要强大的测试时策略来控制这种偏差。现有的解决方案，即指示 LLM 公平或健壮，依赖于模型对偏差的隐式理解。因果关系提供了一种丰富的形式化方法，通过这种方法，我们可以明确地表达我们的去偏见要求。然而，正如我们所展示的，在标准假设下，标准因果去偏见策略（反事实数据增强）的简单应用无法在测试时对个人层面的预测进行去偏见。为了解决这个问题，我们开发了一种分层去偏见概念，称为分层不变性，它可以通过一个额外的度量来捕捉从总体水平到个人水平的一系列去偏见要求，该度量对预测进行分层。我们提出了一种完整的观察性分层不变性检验。最后，我们介绍了一种数据增强策略，该策略在适当的假设下保证测试时的分层不变性，以及一种鼓励 LLM 中分层不变性的提示策略。我们表明，与隐式指令不同，我们的提示策略在不依赖于额外数据、微调或预训练的情况下，始终如一地减少了一系列合成和真实世界基准中前沿 LLM 的偏差。

发布时间: 10/8/2024

查看原文

WildBench：利用真实用户在真实场景中的挑战性任务对大型语言模型进行基准测试

作者: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi

我们引入了 WildBench，一个旨在使用具有挑战性的真实世界用户查询对大型语言模型 (LLM) 进行基准测试的自动化评估框架。WildBench 包含从超过一百万个人机对话日志中精心挑选的 1,024 个任务。为了用 WildBench 进行自动化评估，我们开发了两个指标，WB-Reward 和 WB-Score，它们可以使用 GPT-4-turbo 等高级 LLM 计算。WildBench 评估使用特定于任务的清单来系统地评估模型输出，并提供结构化的解释来证明分数和比较，从而产生更可靠和可解释的自动判断。WB-Reward 采用模型响应之间的细粒度成对比较，生成五种可能的输出：好很多、略好、略差、差很多或平局。与以前使用单个基线模型的评估不同，我们选择了三个不同性能水平的基线模型，以确保全面的成对评估。此外，我们提出了一种简单的方法来减轻长度偏差，方法是将“略好/略差”的结果转换为“平局”，如果获胜者响应比失败者响应多于 K 个字符。WB-Score 单独评估模型输出的质量，使其成为一种快速且成本效益高的评估指标。WildBench 结果表明，与 Chatbot Arena 在困难任务上的人工投票 Elo 等级有很强的相关性。具体来说，WB-Reward 与排名靠前的模型的皮尔逊相关系数为 0.98。此外，WB-Score 达到了 0.95，超过了 ArenaHard 的 0.91 和 AlpacaEval2.0 的 0.89 的长度控制获胜率，以及常规获胜率的 0.87。

发布时间: 10/8/2024

查看原文

对抗式强化学习中误差最小化的概率视角

作者: Roman Belaire, Arunesh Sinha, Pradeep Varakantham

深度强化学习（DRL）策略对观测中的对抗性噪声高度敏感，这在安全关键场景中带来了重大风险。例如，如果自动驾驶汽车的交通标志感官输入被对手操控，可能会导致灾难性后果。此类情况下的核心挑战是，由于这些对抗性操作，环境的真实状态变得仅部分可观察。文献中迄今为止采用了两种主要策略；第一组方法侧重于增加附近状态（与真实状态接近的状态）共享相同鲁棒动作的可能性。第二组方法最大化对抗性扰动观测范围内最坏可能真实状态的价值。尽管这些方法提供了强大的抗攻击能力，但它们往往过于保守或不可推广。我们假设这些方法的不足源于它们未能明确考虑部分可观察性。通过做出直接考虑这种对真实状态的局部知识的决策，我们相信可以实现鲁棒性和性能之间的更好平衡，尤其是在对抗性设置中。为了实现这一点，我们引入了一个名为对抗性反事实误差 (ACoE) 的新目标，该目标定义在对潜在真实状态的信念上，并自然地平衡了价值优化和对抗性攻击的鲁棒性，以及一个理论上有根据的可扩展代理目标累积-ACoE (C-ACoE)。我们的实证评估表明，我们的方法在解决对抗性 RL 挑战方面显著优于当前最先进的方法，为在对抗性条件下更好地进行 DRL 提供了一个有希望的方向。

发布时间: 10/8/2024

查看原文

阿拉伯模因中的宣传内容

作者: Firoj Alam, Abul Hasnat, Fatema Ahmed, Md Arid Hasan, Maram Hasanain

随着数字通信的兴起，表情包已成为文化和政治表达的重要媒介，常被用于误导受众。识别此类误导性和具有说服力的多模态内容对于各种利益相关者（包括社交媒体平台、政策制定者和更广泛的社会）变得越来越重要，因为它们经常会对个人、组织和/或社会造成伤害。虽然已经努力为资源丰富的语言（如英语）开发基于人工智能的自动系统，但对于中等资源到低资源语言来说，这种努力相对较少。在本研究中，我们专注于开发一个包含宣传内容人工标注的阿拉伯语表情包数据集。我们对从各种社交媒体平台收集的约 6000 个阿拉伯语表情包进行了标注，这是阿拉伯语多模态研究的首个资源。我们提供了一项综合分析，旨在开发用于检测它们的计算工具。我们将向社区公开这些工具。

发布时间: 10/8/2024

查看原文