解耦表示学习旨在通过训练一个数据编码器来识别数据生成过程中的语义上有意义的潜在变量,从而提高深度学习方法的可解释性。然而,关于解耦表示学习目标的普遍接受定义尚未达成共识。特别地,关于潜在变量之间是否应该相互独立存在着大量的讨论。在本文中,我们首先通过在认识论和解耦表示学习之间建立概念桥梁,来研究关于潜在变量之间相互关系的这些论点。然后,受这些跨学科概念的启发,我们引入了一个两级潜在空间框架,为关于这个问题的先前论点提供一个通用解决方案。最后,我们提出了一种新的解耦表示学习方法,通过在生成对抗网络 (GAN) 框架中整合互信息约束和独立性约束。实验结果表明,我们提出的方法在定量和定性评估方面始终优于基线方法。该方法在多个常用指标上表现出强大的性能,并展示了在解耦各种语义因素方面的强大能力,从而提高了可控生成的质量,进而有利于算法的可解释性。
当前视觉导航研究存在改进空间。首先,直接采用 RNN 和 Transformer 往往忽视了具身 AI 与传统序列数据建模之间的具体差异,这可能会限制其在具身 AI 任务中的性能。其次,对特定任务配置的依赖,例如预训练模块和特定数据集的逻辑,会损害这些方法的泛化能力。为了解决这些限制,我们首先从因果关系的角度探讨了导航任务与其他序列数据任务之间的独特差异,提出了一个因果框架来阐明传统序列方法在导航方面的不足。利用这种因果关系视角,我们为导航提出了因果感知 Transformer (CAT) 网络,该网络具有因果理解模块,以增强模型的环境理解能力。同时,我们的方法没有特定任务的归纳偏差,可以以端到端的方式进行训练,这增强了该方法在各种环境下的泛化能力。实证评估表明,我们的方法在各种设置、任务和模拟环境中始终优于基准性能。广泛的消融研究表明,性能提升可归因于因果理解模块,该模块在强化学习和监督学习设置中都证明了其有效性和效率。
本文提出了一种基于控制的框架,通过利用控制障碍函数 (CBF) 来对大型语言模型 (LLM) 进行对齐,以确保用户期望的文本生成。该框架将基于 CBF 设计的安全过滤器应用于基线 LLM 的输出生成,即标记序列,目的是对生成的文本进行干预。整个文本生成系统使用 Llama 3 和 RoBERTa 模型实现,源代码可在 https://github.com/Mya-Mya/CBF-LLM 获取。实验表明,该框架具有控制能力,并且可以有效减少用户指定对齐任务所需的干预次数。
近年来,人工智能生成的歌曲的激增带来了激动人心的可能性和挑战。虽然这些发明使音乐创作民主化,但也需要能够区分人作曲和合成歌曲,以维护艺术完整性和保护人类音乐艺术。现有的假歌检测研究和数据集只关注歌唱声音深度伪造检测 (SVDD),其中人声是人工智能生成的,但器乐音乐来自真实歌曲。然而,这些方法不足以检测所有成分(人声、音乐、歌词和风格)都可能是人工智能生成的当代端到端人工歌曲。此外,现有数据集缺乏音乐-歌词多样性、长时歌曲和开放访问的假歌曲。为了解决这些差距,我们推出了 SONICS,一个用于端到端合成歌曲检测 (SSD) 的新数据集,包含超过 97,000 首歌曲(4,751 小时),其中超过 49,000 首合成歌曲来自 Suno 和 Udio 等流行平台。此外,我们强调了对歌曲中长距离时间依赖关系进行建模以实现有效真实性检测的重要性,这一点在现有方法中完全被忽略。为了利用长距离模式,我们引入了 SpecTTTra,这是一种新颖的架构,与传统的 CNN 和基于 Transformer 的模型相比,它显着提高了时间和内存效率。特别是,对于长音频样本,我们表现最佳的变体在 F1 分数上比 ViT 高出 8%,同时速度提高了 38%,内存使用量减少了 26%。此外,与 ConvNeXt 相比,我们的模型在 F1 分数上提高了 1%,速度提高了 20%,内存使用量减少了 67%。我们模型家族的其他变体提供了更好的速度和内存效率,同时具有竞争力的性能。
鉴于社交媒体上错误信息的广泛传播,对在线声明实施事实核查机制至关重要。手动验证每个声明非常具有挑战性,突出了对自动化事实核查系统的需求。本文介绍了我们为解决此问题而设计的系统。我们利用 Averitec 数据集(Schlichtkrull 等人,2023 年)来评估我们的事实核查系统的性能。除了真实性预测之外,我们的系统还提供支持性证据,这些证据是从数据集中提取的。我们开发了一个检索和生成(RAG)管道,从知识库中提取相关证据句子,然后将这些句子与声明一起输入大型语言模型 (LLM) 进行分类。我们还评估了多个 LLM 的少样本上下文学习 (ICL) 能力。我们的系统实现了 0.33 的“Averitec”分数,比基线提高了 22%。我们的代码已在 https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms 上公开发布。
基于序列的推荐系统通过分析用户的历史交互行为来预测用户接下来可能感兴趣的物品,从而实现个性化推荐。近年来,利用大型语言模型 (LLM) 在知识理解和推理方面的优势,一些方法将 LLM 应用于序列推荐,并通过语言生成范式进行推荐。这些方法将用户行为序列转换为 LLM 微调的提示,并利用低秩自适应 (LoRA) 模块来优化推荐结果。然而,在不同的用户行为中统一应用 LoRA 可能会忽略个体差异,导致性能下降,以及不同序列之间出现负迁移。为了解决这些挑战,我们提出了实例级 LoRA (iLoRA),将 LoRA 与专家混合 (MoE) 框架相结合。iLoRA 创建了一组多样化的专家,每个专家都捕捉用户偏好的特定方面,并引入了序列表示引导的闸门函数。该闸门函数处理历史交互序列,生成丰富的表示,指导闸门网络输出定制化的专家参与权重。这种定制化方法减轻了负迁移的影响,并能动态适应不同的行为模式。在三个基准数据集上的大量实验表明了 iLoRA 的有效性,突出了它在捕捉用户特定偏好和提高推荐准确性方面的优越性能。
制药行业的法规合规报告依赖于详细的表格,但由于其非结构化格式和任意内容,这些表格往往在合规之外的使用率低下。由于表格呈现方式的多样性,提取和语义化表示表格数据具有挑战性。大型语言模型 (LLM) 在语义表示方面展现出巨大潜力,但它们在准确性和上下文大小限制方面面临挑战,而这些挑战对于行业应用至关重要。我们介绍了 HySem,这是一种利用新颖的上下文长度优化技术从 HTML 表格生成准确的语义 JSON 表示的管道。这种方法利用专门为成本和隐私敏感的中小型制药企业设计的定制微调模型。HySem 在商品硬件上运行,并利用开源模型,在准确性方面超越了同类开源模型,并在与 OpenAI GPT-4o 的基准测试中提供了具有竞争力的性能,并有效地解决了上下文长度限制问题,这对于支持更大表格至关重要。
能够自主识别漏洞并执行攻击的网络安全语言模型 (LM) 代理有可能对现实世界造成影响。人工智能和网络安全领域的政策制定者、模型提供商和其他研究人员有兴趣量化此类代理的能力,以帮助缓解网络风险并调查渗透测试的机会。为此,我们介绍了 Cybench,这是一个用于指定网络安全任务和评估代理在这些任务上的框架。我们包括了来自 4 个不同 CTF 比赛的 40 个专业级夺旗 (CTF) 任务,这些任务经过精心选择,具有最新性、意义和广泛的难度。每个任务都包含其自身描述、入门文件,并在代理可以执行 bash 命令并观察输出的环境中初始化。由于许多任务超出了现有 LM 代理的能力,因此我们为每个任务引入了子任务,将任务分解为中间步骤,以便更详细地评估。为了评估代理能力,我们构建了一个网络安全代理,并评估了 8 个模型:GPT-4o、OpenAI o1-preview、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有子任务指导的情况下,使用 Claude 3.5 Sonnet、GPT-4o、OpenAI o1-preview 和 Claude 3 Opus 的代理成功解决了需要人类团队最多 11 分钟才能解决的完整任务。相比之下,最困难的任务需要人类团队 24 小时 54 分钟才能解决。所有代码和数据都可以在 https://cybench.github.io 公开获取。
在大型语言模型(LLM)热潮的背景下,迫切需要对其能力和不足进行科学评估。这并非易事,部分原因在于难以找到模型在训练过程中未曾遇到的任务。利用符号图形程序,我们提出了一种非常适合测试 LLM 多种空间语义推理能力的领域。这些程序在计算机图形学中很流行,可以生成视觉数据。虽然 LLM 在一般的程序合成和分析方面表现出惊人的能力,但符号图形程序提供了一个新的评估层:它们允许我们测试 LLM 在没有视觉编码器的情况下,回答图像或 3D 几何体的不同粒度的语义级问题的能力。为了语义地理解符号程序,LLM 需要具备“想象”和推理的能力,即如何仅用符号描述来呈现相应的图形内容。我们利用这项任务通过创建用于评估符号图形程序的语义视觉理解的大型基准来评估 LLM,该基准通过程序化方式构建,只需最少的人工干预。特别强调的是,图像的变换会保持图像级语义不变,同时对底层程序引入重大变化。我们在我们的基准上评估商业和开源 LLM,以评估它们推理程序的视觉输出的能力,发现被认为推理能力更强的 LLM 通常表现更好。最后,我们引入了一种新的方法来提高这种能力——符号指令微调 (SIT),其中 LLM 使用在符号图形程序上预先收集的指令数据进行微调。有趣的是,我们发现 SIT 不仅提高了 LLM 对符号程序的理解能力,而且还提高了在各种其他基准上的通用推理能力。
近年来,基于上下文学习的方法在文本到 SQL 任务中取得了显著成功。然而,这些模型在具有复杂数据库模式和困难问题的数据集(如 BIRD)上的表现与人类性能之间仍存在较大差距。此外,现有工作在使用问题分解方法迭代解决问题时,忽略了对中间步骤的监督,并且这些工作中使用的模式链接方法非常初级。为了解决这些问题,我们提出了 MAG-SQL,一种具有软模式链接和迭代子 SQL 细化的多代理生成方法。在我们的框架中,使用基于实体的方法和表格摘要来选择数据库中的列,并引入了一种新颖的目标条件分解方法来分解这些复杂的问题。此外,我们构建了一个迭代生成模块,其中包括子 SQL 生成器和子 SQL 细化器,为每个生成步骤引入外部监督。通过一系列消融研究,证明了我们框架中每个代理的有效性。在使用 GPT-4 对 BIRD 基准进行评估时,MAG-SQL 的执行准确率为 61.08%,而普通 GPT-4 的基准准确率为 46.35%,MAC-SQL 的基准准确率为 57.56%。此外,我们的方法在 Spider 上也取得了类似的进展。