arXiv 论文列表

攻击图谱：红队视角下的生成式 AI 挑战与陷阱

随着生成式 AI，特别是大型语言模型 (LLM) 越来越广泛地应用于生产环境，新的攻击面和漏洞随之出现，并将重点放在自然语言和多模态系统中的对抗性威胁上。红队攻击在主动识别这些系统中的弱点方面变得越来越重要，而蓝队攻击则致力于防御此类对抗性攻击。尽管学术界对生成式 AI 的对抗性风险越来越感兴趣，但针对实践者在现实环境中评估和缓解这些挑战的指导却很少。为了解决这个问题，我们的贡献包括：（1）对保护生成式 AI 的红队和蓝队策略进行实际检验；（2）确定防御开发和评估中的关键挑战和开放性问题；（3）攻击图谱，一个直观的框架，它为分析单回合输入攻击提供了一种实用方法，使其成为实践者的首选。这项工作旨在弥合学术见解与保护生成式 AI 系统的实际安全措施之间的差距。

发布时间: 9/25/2024

查看原文

基于解析树的 LLM 提示压缩

为大型语言模型（LLMs）提供丰富的上下文信息已被证明可以提高其在各种任务中的性能，但由此产生的更长提示会增加计算成本，并且可能超过LLMs的输入限制。最近，一些提示压缩方法被提出，通过使用语言模型生成更短的提示或开发计算模型来选择原始提示的重要部分，从而缩短提示的长度。生成式压缩方法会遇到幻觉等问题，而选择性压缩方法没有涉及语言规则，忽略了提示的全局结构。为此，我们提出了一种名为PartPrompt的新型选择性压缩方法。它首先根据语言规则为每个句子获取一个解析树，并计算解析树中每个节点的局部信息熵。然后，这些局部解析树根据句子、段落和部分的依赖关系等层次结构组织成一个全局树。之后，提出了根向传播和叶向传播来调整全局树上的节点值。最后，开发了一种递归算法，根据调整后的节点值来修剪全局树。实验表明，PartPrompt在各种数据集、指标、压缩率和用于推理的目标LLMs上都取得了最先进的性能。深入的消融研究证实了PartPrompt中设计的有效性，其他附加实验也证明了其在压缩提示的连贯性和极长提示场景中的优越性。

发布时间: 9/25/2024

查看原文

神经控制变量与自动积分

本文提出了一种利用任意神经网络架构构建控制变量的方法。控制变量在减少蒙特卡洛积分的方差方面至关重要，但它们依赖于找到一个既与被积函数相关又具有已知解析积分的函数。传统方法依赖于启发式方法来选择此函数，这可能不够表达以与被积函数很好地相关。最近的研究通过使用可学习的参数模型（例如神经网络）对被积函数进行建模来缓解这个问题。然而，挑战仍然在于创建具有已知解析积分的表达能力强的参数模型。本文提出了一种从任意神经网络架构构建可学习参数控制变量函数的新方法。我们不是使用网络直接逼近被积函数，而是使用网络逼近被积函数的反导数。这使我们能够使用自动微分来创建一个函数，其积分可以通过反导数网络构造。我们将我们的方法应用于使用球面行走算法求解偏微分方程。我们的结果表明，这种方法是无偏的，并使用各种网络架构来实现比其他控制变量方法更低的方差。

发布时间: 9/25/2024

查看原文

近似正交投影单元：利用自然梯度稳定回归网络训练

神经网络 (NN) 因其特征提取和函数逼近能力，在尖端的软传感器模型中得到了广泛研究。当前基于网络的方法研究主要集中在模型的离线精度上。值得注意的是，在工业软传感器的背景下，在线优化稳定性和可解释性优先于精度。这需要对网络的训练过程有更清晰的理解。为了弥合这一差距，我们提出了一种名为近似正交投影单元 (AOPU) 的新型神经网络，它具有坚实的数学基础并展现出优越的训练稳定性。AOPU 在双参数处截断梯度反向传播，优化可追踪参数更新，并增强训练的鲁棒性。我们进一步证明 AOPU 在 NN 中实现了最小方差估计 (MVE)，其中截断梯度近似自然梯度 (NG)。在两个化工过程数据集上的实证结果清楚地表明，AOPU 在实现稳定收敛方面优于其他模型，标志着软传感器领域的一项重大进步。

发布时间: 9/25/2024

查看原文

词性对抗攻击：文本到图像生成中的实证研究

最近的研究表明，文本到图像 (T2I) 模型容易受到对抗性攻击，尤其是在文本提示中使用名词扰动。在本研究中，我们研究了对抗性攻击对 T2I 模型生成的图像中文本提示内不同词性标签的影响。我们创建了一个高质量的数据集，用于现实的词性标签标记交换，并执行基于梯度的攻击以找到对抗性后缀，这些后缀会误导 T2I 模型生成具有更改标记的图像。我们的实证结果表明，攻击成功率 (ASR) 在不同的词性标签类别之间差异很大，名词、专有名词和形容词最容易受到攻击。我们探索了对抗性后缀转向效果背后的机制，发现关键标记的数量和内容融合在不同的词性标签之间有所不同，而像后缀可转移性这样的特征在所有类别中都是一致的。我们已将我们的实现公开发布在 - https://github.com/shahariar-shibli/Adversarial-Attack-on-POS-Tags。

发布时间: 9/25/2024

查看原文

卡拉希：一个手工制作的、草根文化的菲律宾大型语言模型评估套件

现今的多语言大型语言模型 (LLMs) 并不一定能为菲律宾用户提供文化上恰当且相关的回应。我们引入了 Kalahi，一个由菲律宾母语人士共同创建的文化 LLM 评估套件。它包含 150 个高质量、手工制作的细致入微的提示，用于测试 LLM 在生成与菲律宾共享文化知识和价值观相关的文本方面的能力。LLM 在 Kalahi 中的表现强劲表明模型能够生成类似于菲律宾人平均会在特定情况下说或做出的回应。我们对支持多种语言和菲律宾语的 LLM 进行了实验。结果表明，Kalahi 虽然对菲律宾人来说微不足道，但对 LLM 来说却极具挑战性，最佳模型仅正确回答了 46.0% 的问题，而菲律宾母语人士的正确率为 89.10%。因此，Kalahi 可用于准确可靠地评估 LLM 中菲律宾文化的表现。

发布时间: 9/25/2024

查看原文

临床转录自动化的探索

行政文档是医疗成本上升的主要驱动因素，并与不良后果相关联，包括医生倦怠和医疗质量下降。本文介绍了一个安全系统，该系统将语音到文本转录和说话人标注（分段）的最新进展应用于患者与医生的对话。该系统经过优化，可以生成准确的转录并突出潜在的错误，以促进快速的人工验证，从而进一步减少必要的体力劳动。应用于超过 40 小时的模拟对话，该系统为自动化临床转录提供了有希望的基础。

发布时间: 9/25/2024

查看原文

利用大型语言模型辅助贫血的鉴别诊断

在实际应用中，临床医生通过一系列步骤，例如实验室检查、观察或影像学检查来实现诊断。诊断决策的路径由专家组织编制的指南记录，这些指南指导临床医生通过这些步骤序列来获得正确的诊断。虽然这些指南对于遵循医学推理和巩固医学知识很有益，但它们也有一些缺点。由于它们侧重于大多数人群，因此往往无法解决患有罕见疾病的患者，并且更新速度慢且成本高，使其不适合快速出现的疾病或新做法。受临床指南的启发，我们的研究旨在开发类似于在临床指南中可以获得的路径。我们在一个合成但现实的数据集上测试了三种大型语言模型 (LLM)——生成式预训练变换器 4 (GPT-4)、大型语言模型 Meta AI (LLaMA) 和 Mistral——来对贫血及其亚型进行鉴别诊断。通过使用先进的提示技术来增强决策过程，我们使用这些模型生成了诊断路径。实验结果表明，LLM 在从患者数据中发现临床路径方面具有巨大潜力，GPT-4 在所有进行的实验中表现出最佳性能。

发布时间: 9/25/2024

查看原文

ControlMath：可控数据生成促进数学通才模型

利用大型语言模型 (LLM) 进行数据增强在数学推理方面取得了可喜的成果。然而，这些方法在问题多样性方面面临限制，可能将它们限制在域内/分布数据生成。为此，我们提出了 ControlMath，一种迭代方法，包括一个方程生成模块和两个基于 LLM 的代理。该模块创建了多样化的方程，然后由问题构建者代理将其转换为数学文字问题。反向代理根据“少即是多”原则过滤和选择高质量数据，在更少的数据点下取得更好的结果。这种方法能够生成多样化的数学问题，不受特定领域或分布的限制。因此，我们收集了 ControlMathQA，其中包含 190k 个数学文字问题。大量结果证明，将我们的数据集与 GSM8K 等域内数据集相结合，可以帮助提高模型的数学泛化能力，从而在特定领域内和超越特定领域都取得更好的性能。

发布时间: 9/25/2024

查看原文

DS2TA：带衰减时空注意力的去噪脉冲Transformer

视觉Transformer（ViT）是当前各种视觉应用的首选高性能模型。最近的发展催生了受生物学启发的脉冲Transformer，这些Transformer在神经形态硬件上以超低功耗运行，但尚未完全释放脉冲神经网络的潜力。我们介绍了DS2TA，一种具有衰减时空注意力的去噪脉冲Transformer，专门为视觉应用而设计。DS2TA引入了一种新的脉冲衰减时空注意机制，该机制考虑了时间和空间中发生的输入激发相关性，从而充分利用了Transformer架构核心脉冲神经元的计算能力。重要的是，DS2TA 促进了参数高效的时空注意力计算，而无需引入额外的权重。DS2TA采用高效的基于哈希表的非线性脉冲注意力去噪器，以增强脉冲注意力图的鲁棒性和表达能力。DS2TA在几个广泛采用的静态图像和动态神经形态数据集上展示了最先进的性能。在 4 个时间步长内运行，DS2TA 在 CIFAR10 上实现了 94.92% 的 top-1 准确率，在 CIFAR100 上实现了 77.47% 的 top-1 准确率，以及在 CIFAR10-DVS 和 DVS-Gesture 上分别实现了 79.1% 和 94.44% 的准确率（使用 10 个时间步长）。

发布时间: 9/25/2024

查看原文