arXiv 论文列表

作者: John Burden, Manuel Cebrian, Jose Hernandez-Orallo

大型语言模型 (LLM) 呈现出双重用途的困境：它们能够支持有益的应用，但也潜藏着造成危害的可能性，尤其是在对话交互中。尽管采取了各种安全措施，但先进的 LLM 仍然存在漏洞。一个具有里程碑意义的案例是凯文·鲁斯与必应的著名对话，在长时间的互动后，必应产生了有害的输出。这与早期更容易产生类似内容的简单越狱行为形成对比，引发了一个问题：从 LLM 中获取有害信息需要多少对话努力？我们提出了两个指标：对话长度 (CL)，用于量化获取特定响应所需的对话长度；对话复杂度 (CC)，定义为导致响应的用户指令序列的 Kolmogorov 复杂度。为了解决 Kolmogorov 复杂度的不可计算性，我们使用参考 LLM 来近似 CC，以估计用户指令的可压缩性。将这种方法应用于大型红队数据集，我们进行了定量分析，检查了有害和无害对话长度和复杂度的统计分布。我们的实证结果表明，这种分布分析和 CC 的最小化是理解 AI 安全的宝贵工具，为理解有害信息的获取途径提供见解。这项工作为 LLM 安全的新视角奠定了基础，该视角以通往危害的路径的算法复杂度为中心。

发布时间: 10/2/2024

查看原文

面向符号可解释人工智能——通过特征之间人类可理解的逻辑关系进行解释

作者: Thomas Schnake, Farnoush Rezaei Jafari, Jonas Lederer, Ping Xiong, Shinichi Nakajima, Stefan Gugler, Gr\'egoire Montavon, Klaus-Robert M\"uller

可解释人工智能（XAI）在促进人工智能系统的透明度和信任方面发挥着至关重要的作用，传统的 XAI 方法通常提供一个抽象层次的解释，通常以热图的形式突出显示单个或多个输入特征。然而，我们不禁要问，模型的抽象推理或问题解决策略是否也具有相关性，因为这些策略更符合人类解决问题的方式。我们提出了一个名为符号 XAI 的框架，该框架将相关性归因于表达输入特征之间逻辑关系的符号查询，从而捕捉模型预测背后的抽象推理。该方法建立在一个简单但通用的模型预测多阶分解的基础上。这种分解可以使用高阶传播相关的解释方法（如 GNN-LRP）或 XAI 中常用的扰动相关的解释方法来指定。我们的框架在自然语言处理 (NLP)、视觉和量子化学 (QC) 领域得到了有效验证，在这些领域，抽象符号领域知识丰富且对用户具有重要意义。符号 XAI 框架提供了对模型决策过程的理解，这种理解既灵活，用户可以自定义，又可以通过逻辑公式以人类可读的方式进行表达。

发布时间: 10/2/2024

查看原文

边缘设备上的大型语言模型微调与部署：问题与方法

作者: Yanjie Dong, Haijun Zhang, Chengming Li, Song Guo, Victor C. M. Leung, Xiping Hu

自 2019 年 GPT2-1.5B 诞生以来，大型语言模型 (LLM) 已从专门的模型转变为通用的基础模型。LLM 表现出令人印象深刻的零样本能力，但是，它们需要在本地数据集上进行微调，并且需要大量的资源进行部署。传统的利用一阶优化器进行的微调技术需要大量的 GPU 内存，这超出了主流硬件的能力。因此，人们有动力去研究内存效率高的方法。模型压缩技术可以降低能耗、运营成本和环境影响，从而支持可持续的人工智能发展。此外，大型基础模型已经扩展到创建图像、音频、视频和多模态内容，进一步强调了高效部署的必要性。因此，我们有动力对网络边缘流行的内存高效微调方法进行全面概述。我们还回顾了模型压缩方面的最新文献，以对在网络边缘部署 LLM 的愿景提供展望。

发布时间: 10/2/2024

查看原文

基础模型在 AI 加速器上的推理优化

作者: Youngsuk Park, Kailash Budhathoki, Liangfu Chen, Jonas K\"ubler, Jiaji Huang, Matth\"aus Kleindessner, Jun Huan, Volkan Cevher, Yida Wang, George Karypis

强大的基础模型，包括基于 Transformer 架构的大型语言模型 (LLMs)，为各个行业的生成式 AI 开启了新纪元。工业界和研究界见证了基于这些基础模型的大量新应用。这些应用包括问答、客户服务、图像和视频生成以及代码补全等。然而，随着模型参数数量达到数千亿，其部署在现实场景中会产生高昂的推理成本和高延迟。因此，对使用 AI 加速器进行经济高效且快速推理的需求越来越高。为此，我们的教程全面讨论了使用 AI 加速器的互补推理优化技术。从基本 Transformer 架构和深度学习系统框架概述开始，我们深入探讨了用于快速、内存高效的注意力计算的系统优化技术，并讨论了如何在 AI 加速器上有效地实现它们。接下来，我们描述了快速 Transformer 推理的关键架构元素。最后，我们将在相同背景下考察各种模型压缩和快速解码策略。

发布时间: 10/2/2024

查看原文

无形状约束的 AND-OR 树上平衡不等式的分离与合并

作者: Fuki Ito, Toshio Suzuki

本文研究了在对算法施加各种限制以找到树根的布尔值（树形不受限制）的情况下，AND-OR 树计算的零错误随机复杂度，即针对最坏输入的最小成本。当树满足其对称性方面的特定条件时，Saks 和 Wigderson（1986）提出的方向算法（一种特殊的随机算法）已知可以实现随机复杂度。此外，已知存在一个如此不平衡的树，以至于没有任何方向算法可以实现随机复杂度（Vereshchagin 1998）。在本研究中，我们旨在确定一般随机布尔决策树及其特殊情况（方向算法）之间偏差的出现位置。在本文中，我们表明，对于任何 AND-OR 树，随机深度优先算法（与方向算法相比，构成更广泛的类别）具有与方向算法相同的均衡。因此，我们得到了对任意 AND-OR 树成立的均衡不等式的坍缩结果。这意味着存在一种情况，即使深度优先算法也不能是最快的，从而导致均衡不等式的分离结果。此外，一种新的算法作为分离结果证明的关键概念被引入。

发布时间: 10/2/2024

查看原文

大型语言和视觉模型中的创造性问题解决——需要什么？

作者: Lakshmi Nair, Evana Gizzi, Jivko Sinapov

我们主张将计算创造力（CC）与大型语言和视觉模型（LLVMs）的研究紧密结合，以解决这些模型的一个关键局限性，即创造性问题解决。我们展示了初步实验，表明如何将 CC 原则应用于解决这一局限性。我们的目标是在著名的机器学习场所促进关于 LLVMs 和 CC 中创造性问题解决的讨论。我们的代码可在以下地址获取：https://github.com/lnairGT/creative-problem-solving-LLMs

发布时间: 10/2/2024

查看原文

面向零样本逻辑查询推理的基础模型

作者: Mikhail Galkin, Jincheng Zhou, Bruno Ribeiro, Jian Tang, Zhaocheng Zhu

大型语言模型 (LLM) 已取代传统方法，成为众多自然语言处理任务的首选。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/2/2024

查看原文

大型语言模型决策能力研究：多智能体环境下游戏能力评估

作者: Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang, Youliang Yuan, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Michael R. Lyu

大型语言模型 (LLMs) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/2/2024

查看原文

我们距离智能视觉演绎推理还有多远？

作者: Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly

近年来，视觉语言模型（VLMs）在各种视觉语言任务上取得了令人难以置信的进展。我们深入研究了基于视觉的演绎推理，这是一个更复杂但探索较少的领域，并发现了当前 SOTA VLMs 中以前未暴露的盲点。具体来说，我们利用 Raven 的渐进矩阵 (RPMs) 来评估 VLMs 在仅依靠视觉线索进行多跳关系和演绎推理方面的能力。我们对包括 Mensa 智商测试、IntelligenceTest 和 RAVEN 在内的三个不同数据集进行了全面评估，并采用了标准策略，例如上下文学习、自我一致性和思维链 (CoT)。结果表明，尽管 LLMs 在基于文本的推理方面具有令人印象深刻的能力，但我们距离在视觉演绎推理方面取得可比的熟练程度还有很长的路要走。我们发现，某些应用于 LLMs 时有效的标准策略并不能顺利地转化为视觉推理任务所带来的挑战。详细分析表明，VLMs 难以解决这些任务的主要原因是它们无法感知和理解 RPM 示例中的多个、相互矛盾的抽象模式。

发布时间: 10/2/2024

查看原文

盲资源分配的随机直接搜索方法

作者: Juliette Achddou (PSL, DI-ENS), Olivier Cappe (CNRS, DI-ENS, PSL), Aur\'elien Garivier (UMPA-ENSL, CNRS)

受程序化广告优化启发，我们考虑了跨一组资源顺序分配预算的任务。在每个时间步，选择一个可行的分配，并且只观察到相应的随机回报。目标是最大化回报的累积期望总和。这是一种用于跨营销活动细分分配预算的现实模型，其目标是最大化转化次数。我们研究了在存在噪声的情况下，用于线性约束和无导数优化的直接搜索（也称为模式搜索）方法，这些方法特别适用于顺序预算分配。这些算法不依赖于资源空间的分层划分，易于实现；它们通过避免在可行域之外进行评估来尊重资源分配的操作约束；它们也与热启动兼容，因为它们是（近似）下降算法。然而，它们还没有从累积遗憾的角度进行分析。我们证明了直接搜索方法在确定性和无约束情况下实现了有限遗憾。在存在评估噪声和线性约束的情况下，我们提出了一种简单的直接搜索扩展，该扩展实现了 $T^{2/3}$ 阶的遗憾上限。我们还提出了一种加速版本的算法，它依赖于重复的顺序测试，显著改善了该方法的实际行为。

发布时间: 10/2/2024

查看原文