arXiv 论文列表

作者: Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Ivor Tsang

模仿学习（IL）在机器人控制等各种应用中展现出巨大潜力。然而，传统的 IL 方法通常被设计为仅学习一种特定类型的行为，因为演示通常对应于单个专家。在这项工作中，我们介绍了第一个用于质量多样性模仿学习（QD-IL）的通用框架，该框架使智能体能够从有限的演示中学习广泛的技能。我们的框架将质量多样性的原则与对抗性模仿学习（AIL）方法相结合，并有可能改进任何逆向强化学习（IRL）方法。从经验上看，我们的框架显著提高了 GAIL 和 VAIL 在从 Mujoco 环境中获得的具有挑战性的连续控制任务上的 QD 性能。此外，我们的方法甚至在最具挑战性的人形环境中实现了 2 倍的专家性能。

发布时间: 10/10/2024

查看原文

面向人工智能原生软件工程（SE 3.0）：愿景与挑战路线图

作者: Ahmed E. Hassan (Jack), Gustavo A. Oliva (Jack), Dayi Lin (Jack), Boyuan Chen (Jack), Zhen Ming (Jack), Jiang

由基础模型 (FM) 和 FM 驱动的副驾驶员驱动的 AI 辅助软件工程 (SE 2.0) 的兴起，在提高开发人员生产力方面展现出希望。然而，它也暴露出固有的局限性，例如开发人员的认知超负荷和效率低下。我们建议转向软件工程 3.0 (SE 3.0)，这是一种以 AI 为核心的方法，其特点是意图优先，在人类开发人员和 AI 队友之间进行以对话为导向的开发。SE 3.0 预见 AI 系统将超越以任务为导向的副驾驶员，成为智能合作者，能够深入理解和推理软件工程原理和意图。我们概述了 SE 3.0 技术栈的关键组成部分，包括 Teammate.next 用于自适应和个性化的 AI 合作、IDE.next 用于意图优先的以对话为导向的开发、Compiler.next 用于多目标代码合成以及 Runtime.next 用于具有边缘计算支持的 SLA 感知执行。我们的愿景通过培养人类开发人员和 AI 之间的共生关系来解决 SE 2.0 的效率低下和认知负担，最大限度地发挥他们的互补优势。我们还提出了实现 SE 3.0 愿景必须克服的挑战路线图。本文为未来关于 AI 在下一代软件工程中作用的讨论奠定了基础。

发布时间: 10/10/2024

查看原文

TOWER：用于评估复杂指令的树形组织权重方法

作者: Noah Ziems, Zhihan Zhang, Meng Jiang

评估大型语言模型 (LLMs) 遵循复杂的人工书写指令的能力对于它们在现实世界应用中的部署至关重要。虽然像 Chatbot Arena 这样的基准测试使用人工评判来评估模型性能，但它们资源密集且耗时。使用 LLMs 作为评判者的替代方法，例如 AlpacaEval、MT Bench、WildBench 和 InFoBench，提供了改进，但仍然没有捕捉到某些复杂指令方面比其他方面更重要的这一点。为了弥补这一差距，我们提出了一种新的评估指标 \textsc{TOWER}，它将人工评判的重要性纳入对复杂指令遵循的评估。我们证明，人工标注者对这些复杂指令的树状表示的认同程度几乎与他们对其他人工标注者的认同程度一样高。我们发布了 InFoBench 数据集的树状标注和相应的评估代码，以促进未来的研究。

发布时间: 10/10/2024

查看原文

偏序集与有界概率：用于事件知识图中发现诱导序特征的方法

作者: Christoffer Olling Back, Jakob Grue Simonsen

事件知识图谱 (EKG) 扩展了经典的跟踪概念，以捕获过程执行的多个交互视图。本文针对从未整理数据中自动发现 EKG 的开放性问题，通过基于事件特征派生偏序产生的结果空间的原则性概率框架来解决。由此，我们推导出了一种基于统计推断的 EKG 发现算法，而不是基于临时或启发式策略，或依赖于领域专家的手动分析。这种方法需要探索一个巨大的非凸假设空间的计算成本。特别是，求解最大似然项涉及计算偏序线性扩展的数量，这在一般情况下是 #P-完全的。幸运的是，边界估计足以进行模型比较，并且可以并入定制的分支定界算法中。我们证明，所定义的后验概率对于模型包含单调的分支规则而言，相对于搜索深度是反单调的。这允许修剪搜索空间的大部分，我们通过实验表明，这会导致快速收敛到与手动构建的 EKG 一致的最优解。

发布时间: 10/10/2024

查看原文

基于大型语言模型的联邦知识图谱自然语言SPARQL查询生成

作者: Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima

我们提出了一种基于检索增强生成 (RAG) 的系统，用于将用户问题翻译成准确的联邦 SPARQL 查询，该查询针对生物信息学知识图谱 (KG)，利用大型语言模型 (LLMs)。为了提高准确性并减少查询生成中的幻觉，我们的系统利用 KG 的元数据，包括查询示例和模式信息，并包含一个验证步骤来校正生成的查询。该系统可在线访问，网址为 chat.expasy.org。

发布时间: 10/10/2024

查看原文

从 Transformer 中提取有限状态机

作者: Rik Adriaensen, Jaron Maene

受深度学习中 Transformer 架构流行的推动，许多研究工作已经探索了 Transformer 可以学习哪些形式语言。然而，现有结果仍然难以比较，并且对 Transformer 在正则语言上的可训练性的细粒度理解仍然不足。我们从机械可解释性的角度研究了在正则语言上训练的 Transformer。利用 $L^*$ 算法的扩展，我们从 Transformer 中提取了 Moore 机。当有限数量的符号决定状态时，我们通过实证发现 Transformer 可训练性的更紧密的较低界限。此外，我们的机械洞察力使我们能够描述单层 Transformer 可以学习的正则语言，并具有良好的长度泛化性。然而，我们也发现了失败案例，其中决定性符号由于注意力机制的饱和而被误识别。

发布时间: 10/10/2024

查看原文

块诱导签名生成对抗网络（BISGAN）：基于生成对抗网络的签名伪造及其评估

作者: Haadia Amjad, Kilian Goeller, Steffen Seitz, Carsten Knoll, Naseer Bajwa, Muhammad Imran Malik, Ronald Tetzlaff

深度学习在生物识别领域被积极用于开发高效的身份识别和验证系统。手写签名是用于身份验证的生物识别数据的常见子集。生成对抗网络 (GAN) 从原始签名和伪造签名中学习以生成伪造签名。虽然大多数 GAN 技术创造了一个强大的签名验证器（即鉴别器），但需要更多地关注生成器模型生成的伪造质量。这项工作侧重于创建一个生成器，该生成器生成的伪造样本能够在欺骗签名验证系统方面达到基准。我们使用融合了具有注意力头的 Inception 模型块的 CycleGAN 作为生成器，以及 SigCNN 模型的变体作为基础鉴别器。我们使用一种新技术训练我们的模型，该技术在签名欺骗方面取得了 80% 到 100% 的成功率。此外，我们创建了一种定制的评估技术，作为生成的伪造样本的优良性度量。我们的工作主张使用以生成器为中心的 GAN 架构来提高欺骗数据的质量，这有助于更好地理解生物识别数据的生成和评估。

发布时间: 10/10/2024

查看原文

漏洞检测数据集中的数据质量问题

作者: Yuejun Guo, Seifeddine Bettaieb

漏洞检测是识别软件中潜在弱点以确保网络安全的一项至关重要的任务，但也极具挑战性。近年来，深度学习 (DL) 在自动化检测过程中取得了重大进展。由于其复杂的多分层结构和大量的参数，DL 模型需要大量的标记（易受攻击或安全）源代码来获取知识，以便有效地区分易受攻击代码和安全代码。在相关文献中，许多数据集被创建用于训练用于此目的的 DL 模型。然而，这些数据集存在一些问题，会导致 DL 模型的检测精度较低。本文定义了三个关键问题（即数据不平衡、漏洞覆盖率低、漏洞分布偏差），这些问题会显著影响模型性能，以及三个次要问题（即源代码错误、错误标记、噪声历史数据），这些问题也会影响性能，但可以通过专门的预处理过程解决。此外，我们对 14 篇论文以及 54 个漏洞检测数据集进行了研究，以确认这些定义的问题。此外，我们还讨论了使用现有数据集和创建新数据集的良好做法。

发布时间: 10/10/2024

查看原文

残差计算的喷射扩展

作者: Yihong Chen, Xiangxiang Xu, Yao Lu, Pontus Stenetorp, Luca Franceschi

我们提出了一种利用“喷射”来扩展残差计算图的框架，其中“喷射”是广义的截断泰勒级数算子。我们的方法为解开不同计算路径对模型预测的贡献提供了一种系统性的方法。与蒸馏、探测或早期解码等现有技术相比，我们的扩展仅依赖于模型本身，不需要数据、训练或从模型中采样。我们展示了我们的框架如何为logit lens提供基础并将其包含在内，揭示了递归残差深度中的（超）指数路径结构，并开辟了多种应用。这些应用包括使用从模型计算中提取的n-gram统计数据来描绘一个Transformer大型语言模型，以及索引模型的毒性知识水平。我们的方法使残差计算的数据无关分析成为可能，从而实现模型的可解释性、开发和评估。

发布时间: 10/10/2024

查看原文

揭示Transformer感知：探索输入流形

作者: Alessandro Benfenati, Alfio Ferrara, Alessio Marta, Davide Riva, Elisabetta Rocchetti

本文提出了一种通用的方法，用于探索 Transformer 模型输入空间中的等价类。该方法基于严谨的数学理论，将 Transformer 架构的内部层描述为输入流形的连续变形。通过对模型雅可比矩阵定义的输出空间距离度量的拉回进行特征分解，我们能够重建输入空间中的等价类并跨越它们。我们展示了这种方法如何作为一种强大的工具，用于研究 Transformer 如何看待输入空间，从而在计算机视觉和自然语言处理任务中促进局部和与任务无关的可解释性。

发布时间: 10/10/2024

查看原文