arXiv 论文列表

作者: Yuhao Du, Zhuo Li, Pengyu Cheng, Xiang Wan, Anningzhe Gao

arXiv:2408.14853v2 安全公告类型: 替换-交叉摘要：尽管人工智能取得了显著进展，但大型语言模型（LLMs）在生成安全性方面仍然面临挑战。通过对抗性监狱破解提示，人们可以轻松诱导LLMs产生有害内容，从而导致意外的负面社会影响。这种漏洞突显了在大规模应用之前需要采取稳健的LLM红队策略来识别和缓解此类风险的重要性。为了检测特定类型的威胁，我们提出了一种新的红队方法，名为Atoxia，其攻击目标是有毒答案（$\textbf{A}$ttacks LLMs with $\textbf{T}$arget $\textbf{Toxi}$c $\textbf{A}$nswers）。给定一个特定的有害回答，Atoxia会生成相应的用户查询和误导性回答，以检查给定LLM的内部缺陷。提出的方法在强化学习方案中进行训练，奖励是LLM输出的目标答案的概率。我们在AdvBench和HH-Harmless等各种红队基准测试上验证了该方法的有效性。实验证明，Atoxia不仅可以检测开源模型中的安全性风险，还可以检测如GPT-4o等最先进的黑盒模型中的安全性风险。

发布时间: 2/18/2025

查看原文

探索大规模语言模型在异构图中的潜力

作者: Yuxia Wu, Shujie Li, Yuan Fang, Chuan Shi

arXiv:2408.14134v3 通告类型: replace-cross 摘要：大型语言模型（LLMs）为增强各种机器学习应用，特别是图神经网络（GNNs），提供了显著的机会。通过利用LLMs中的大量开放世界知识，我们可以更有效地解释和利用文本数据，以更好地表征异ophilic 图，其中相邻节点往往具有不同的标签。然而，现有的异ophilic 图方法未能充分利用与节点相关丰富的文本数据，这可能会揭示出其异ophilic 上下文的更深层次的见解。在本文中，我们探索了LLMs在建模异ophilic 图方面的潜力，并提出了一种新颖的两阶段框架：LLM增强的边鉴别器和LLM引导的边重权。在第一阶段中，我们将LLM微调以更好地根据节点的文本内容识别同ophilic 和异ophilic 边。在第二阶段中，我们根据节点特征、结构以及异ophilic 或同ophilic 特征，自适应地管理GNN中的消息传播。为了应对在实际场景中部署LLMs时的计算需求，我们进一步探讨了模型蒸馏技术来微调更小、更高效的模型，同时保持竞争性性能。广泛的经验实验证明了我们框架的有效性，展示了利用LLMs增强异ophilic 图的节点分类的可能性。

发布时间: 2/18/2025

查看原文

增强图神经网络表示能力的可学习 Lanczos 约束

作者: Niloofar Azizi, Nils Kriege, Horst Bischof

arXiv:2408.12334v2 提交类型: 替换-交叉摘要：图神经网络（GNNs）在处理图结构数据方面表现出色，但在链接预测任务中的表现通常不如古典方法，主要原因是常用的消息传递原则的局限性。值得关注的是，它们区分非同构图的能力受限于1维韦施费勒-勒曼测试。我们的研究提出了一种新方法，通过将诱导子图嵌入图拉普拉斯矩阵的特征基中来增强GNNs的表达能力。我们引入了一种具有线性约束的可学习拉朗兹算法（LLwLC），提出了两种新颖的子图提取策略：编码删除顶点的子图和应用内尔曼特征值约束。对于前者，我们展示了区分2-WL无法区分的图的能力，同时保持高效的时间复杂性。后者侧重于链接表示，能够区分$k$-规则图和节点自同构，这是链接预测任务中的关键方面。我们的方法导致了一个极其轻量级的架构，减少了对大规模训练数据集的需求。实验结果表明，我们的方法在基准数据集上的困难的链接预测任务中提高了性能，证明了其实用价值并支持了我们的理论发现。值得注意的是，LLwLC仅需PubMed和OGBL-Vessel数据集的5%和10%数据即可实现与当前最佳方法相比的速度提升20倍和10倍。

发布时间: 2/18/2025

查看原文

自动回归语言模型中演绎推理的机制解释

作者: Geonhee Kim, Marco Valentino, Andr\'e Freitas

arXiv:2408.08590v2 通报类型: 替换-交叉摘要：关于语言模型（LMs）在逻辑推理中的研究引发了关于它们在预训练过程中是否能够学习系统性的推理原则，还是仅仅利用训练数据中的表面模式的辩论。本文旨在通过机制解释LMs中的演绎推理，以加深对其内部动态的理解。具体而言，我们提出了一个电路发现的方法，旨在解释内容无关的推理机制。通过两种不同的干预方法，我们揭示了一个关于中间项抑制的充分必要电路，阐明了LMs如何通过前提传递信息以得出有效的结论。此外，我们调查了信念偏见在演绎推理中的表现，发现负责编码常识和上下文信息的额外注意力头的行为对推理产生了部分污染的证据。最后，我们探讨了所发现机制在各种演绎推理方案、模型规模和架构上的泛化能力，发现所识别的电路对于模型在下游任务中达到高准确率（>60%）的方案是充分必要的，并且激活模式适用于不同家族的模型。总体而言，我们的研究结果表明，LMs确实学习了可转移的内容无关的推理机制，但这些机制不涉及可泛化的和抽象的逻辑原语，这些机制容易受到预训练期间获得的世界知识的污染。

发布时间: 2/18/2025

查看原文

重述的艺术品：通过身体提示探索人AI共创

作者: Jonas Oppenlaender, Hannah Johnston, Johanna Silvennoinen, Helena Barranha

arXiv:2408.05476v2 宣布类型: 替换交叉摘要：使用生成性人工智能生成图像已成为一种流行活动。然而，在公共场合，基于文本的图像生成——即从文字提示生成图像——往往缺乏吸引力，因为打字的过程往往会限制观众的互动参与，从而降低了其用于设计动态公共装置的适用性。在本文中，我们探讨了在公共活动场所的装置中使用身体提示作为图像生成的输入模式。身体提示将与生成性人工智能的交互扩展到文本输入之外，重新连接图像生成的创造性行为与创作艺术品的物理行为。我们在此概念中实现了一个互动艺术装置，Artworks Reimagined，旨在通过身体提示改造现有的艺术品。我们在一个有数百名访客的公共和私人设置的活动中部署了该装置。对访客样本（n=79）进行半结构化访谈显示，身体提示受到欢迎，并为装置的访客提供了一种互动且有趣的体验。我们展示了参与者对身体提示和人工智能协作创作的体验见解，并识别出三种不同的身体互动策略：重塑、重新想象或非正式互动。我们为那些希望在博物馆、画廊和公共活动场所设计互动生成人工智能体验的实践者提供了宝贵的建议。

发布时间: 2/18/2025

查看原文

一种基于逻辑谬误的论据生成框架

作者: Luca Mouchel, Debjit Paul, Shaobo Cui, Robert West, Antoine Bosselut, Boi Faltings

arXiv:2408.03618v3 通知类型: 替换-交叉摘要：尽管在自然语言处理任务中大型语言模型（LLMs）取得了显著的性能，但它们 stil l在生成合乎逻辑的论据方面遇到困难，导致传播虚假信息等潜在风险。为了解决这一问题，我们引入了FIPO，这是一个基于谬误信息的框架，利用偏好优化方法引导LLMs生成合乎逻辑的论据。FIPO包括一个分类损失，以捕捉各种谬误类型的细粒度信息。我们的实验结果表明，该方法可以将谬误错误减少高达17.5%。此外，我们的手工评估结果表明，该方法生成的论据质量显著优于微调基线以及其他偏好优化方法（如DPO）。这些发现突显了确保模型了解逻辑谬误对于有效论据生成的重要性。我们的代码可以在github.com/lucamouchel/Logical-Fallacies获得。

发布时间: 2/18/2025

查看原文

公平负荷削减的机器学习方法：基于学习绑定约束的实时解决方案

作者: Yuqi Zhou, Joseph Severino, Sanjana Vijayshankar, Juliette Ugirumurera, Jibo Sanyal

arXiv:2407.18989v3 宣告类型: replace-cross 摘要：在电力系统中及时有效地实施负荷削减对于保持供需平衡并防止连锁断电至关重要。为了消除针对系统中特定区域的负荷削减偏见，基于优化的方法在平衡经济和公平考量方面具有独特的优势。然而，由此产生的优化问题涉及复杂的约束条件，这会导致计算耗时，从而无法满足负荷削减的实时要求。为应对这一挑战，本文提出了一种高效的机器学习算法，用于实现基于优化的负荷削减问题的毫秒级计算。数值研究结果表明，所提出的算法在实现公平和实时的负荷削减决策方面具有有效性和效率，分别在3个节点的仿真实例和现实的RTS-GMLC系统上进行了验证。

发布时间: 2/18/2025

查看原文

LLMs可以是危险的推理者：基于分析的大型语言模型脱狱攻击

作者: Shi Lin, Hongming Yang, Rongchang Li, Xun Wang, Changting Lin, Wenpeng Xing, Meng Han

arXiv:2407.16205v4 安全公告类型: 替换-交叉摘要：大型语言模型（LLMs）的迅速发展带来了各个任务上的显著进步。然而，尽管取得了这些成就，LLMs 仍然存在固有的安全漏洞，尤其是在面对 Jailbreak 攻击时更为明显。现有的 Jailbreak 方法存在两大主要局限：依赖复杂的提示工程和迭代优化，这导致攻击成功率（ASR）和攻击效率（AE）较低。在此工作中，我们提出了一种高效的 Jailbreak 攻击方法，基于分析的 Jailbreak (ABJ)，该方法利用了 LLM 的高级推理能力，使其能够在复杂推理过程中自主生成有害内容，揭示其潜在的安全漏洞。我们在各种开源和闭源 LLM 上进行了全面实验。特别是，ABJ 在所有目标 LLM 中实现了高 ASR（GPT-4o-2024-11-20 的 ASR 为 82.1%，AE 也尤为出色），展示了其卓越的攻击效果、可迁移性和效率。我们的研究结果强调了优先并改进 LLM 安全性的紧迫需求，以减轻滥用风险。

发布时间: 2/18/2025

查看原文

CatVTON: 连接即所需——基于扩散模型的虚拟试穿

作者: Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Dongmei Jiang, Xiaodan Liang

arXiv:2407.15886v2 通告类型: replace-cross 摘要：基于扩散模型的虚拟试穿方法能够实现逼真的效果，但通常需要额外的编码模块、大量的训练参数和复杂的预处理步骤，从而增加了训练和推理的负担。在本文中，我们重新评估了额外模块的必要性，并分析了如何提高训练效率并减少推理过程中的冗余步骤。基于这些见解，我们提出了CatVTON，这是一种简单且高效的虚拟试穿扩散模型，通过在空间维度上连接任意类别的店内或穿戴服装作为扩散模型的输入，将其转移至目标个体。CatVTON的效率体现在三个方面：（1）轻量级网络。CatVTON仅包括一个VAE和一个简化后的去噪UNet，去除了冗余的图像和文本编码器以及交叉注意力，仅包含899.06M参数。（2）参数高效的训练。通过实验分析，我们确定自注意力模块对适应预训练扩散模型到虚拟试穿任务至关重要，仅需49.57M训练参数即可实现高质量的结果。（3）简化的推理。CatVTON消除了不必要的预处理步骤，如姿态估计、人体解析和描述生成，只需一张人体图像和服装参考即可指导虚拟试穿过程，与基于扩散的方法相比，内存使用量降低了超过49%。广泛的实验表明，CatVTON相比基线方法在定性和定量结果上均表现更优，并且尽管仅在包含73K样本的公共数据集上进行训练，但在野外场景中也展示了强大的泛化性能。

发布时间: 2/18/2025

查看原文

ChatQA 2：在长文本上下文和RAG能力与 proprietary LLMs 之间搭建桥梁

作者: Peng Xu, Wei Ping, Xianchao Wu, Chejian Xu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

arXiv:2407.14482v3 通知类型: 交叉替换摘要: 在这项工作中，我们介绍了基于 Llama 3.0，具有 128K 上下文窗口的 ChatQA 2 模型，旨在弥合开源大语言模型和领先专有模型（例如 GPT-4-Turbo-2024-04-09）之间的鸿沟，在长上下文理解和检索增强生成 (RAG) 能力方面。这两种能力相辅相成，对于处理难以在单个提示中容纳的大信息量的 LLM 至关重要。我们介绍了一套详细的继续训练食谱，将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K 令牌，并与一个三阶段指令调优过程一起，以增强模型的指令遵循、RAG 性能和长上下文理解能力。我们的结果表明，Llama3-ChatQA-2-70B 模型在超长任务（超过 100K 令牌）以及使用 4K 上下文窗口的 RAG 基准测试中优于现有的大多数最先进的模型，包括 GPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct 和 Llama3.1-70B-Instruct，展示了不同序列长度的强长上下文能力。我们还提供了在使用相同最先进的长时间上下文 LLM 的直接长时间上下文与 RAG 解决方案之间的广泛比较。有趣的是，我们发现，当检索更多块时，使用 RAG 的强长时间上下文 LLM 的性能有所提升。有了大量的 top-k 块，RAG 在 32K 和 128K 基准测试中始终优于使用相同最先进的长时间上下文模型（例如 Llama3-ChatQA-2-70B 和 Qwen2-72B-Instruct）的直接长时间上下文解决方案。我们开源了模型权重、训练数据和评估设置供社区使用：https://chatqa2-project.github.io/

发布时间: 2/18/2025

查看原文