arXiv 论文列表

Factify5WQA 概述：基于五W问题的事实验证

作者: Suryavardan Suresh, Anku Rani, Parth Patwa, Aishwarya Reganti, Vinija Jain, Aman Chadha, Amitava Das, Amit Sheth, Asif Ekbal

研究人员发现，假新闻的传播速度远快于真实新闻。这在当今社会是一个重大问题，尤其是在社交媒体成为年轻人群体主要新闻来源的今天。因此，事实核查成为一项重要任务，许多媒体网站也为此做出贡献。鉴于在线假新闻的数量庞大，人工事实核查是一项繁琐的任务。Factify5WQA 共享任务旨在通过提供一个基于方面问题的问答事实核查方法的数据集，来推动自动假新闻检测研究。每个声明及其支持文档都与 5W 问题相关联，这些问题有助于比较两个信息源。该任务的目标性能指标是通过使用 BLEU 分数比较答案来衡量答案的准确性，然后是分类的准确性度量。该任务中包含使用自定义训练设置和预训练语言模型等方法的提交结果。表现最佳的团队取得了 69.56% 的准确率，比基线提高了近 35%。

发布时间: 10/8/2024

查看原文

函数同伦：通过连续参数平滑离散优化以实现 LLM 越狱攻击

作者: Zi Wang, Divyam Anshumaan, Ashish Hooda, Yudong Chen, Somesh Jha

优化方法广泛应用于深度学习，用于识别和缓解模型的非预期响应。虽然基于梯度的方法在图像模型中已被证明有效，但其在语言模型中的应用受到输入空间离散性的阻碍。本研究提出了一种新颖的优化方法，称为“函数同伦”方法，该方法利用模型训练和输入生成之间的函数对偶性。通过构建一系列易到难的优化问题，我们利用源于已建立的同伦方法的原理迭代地解决这些问题。我们将此方法应用于大型语言模型 (LLM) 的越狱攻击合成，在绕过已建立的安全开源模型（如 Llama-2 和 Llama-3）方面，比现有方法的成功率提高了 20%-30%。

发布时间: 10/8/2024

查看原文

基于相关性的选择与合并注意力机制，用于高效微调和上下文长度扩展

作者: Ning Wang, Zekun Li, Tongxin Bai, Guoqi Li

在各种大型模型中，对长序列进行建模至关重要；然而，将现有架构扩展到处理更长序列会带来重大的技术和资源挑战。本文提出了一种高效灵活的注意力架构，与其他优秀方法相比，它能够以更少的计算资源和微调时间来扩展大型语言模型中的上下文长度。具体来说，我们引入了相关性感知选择和合并机制，以促进高效的稀疏注意力。此外，我们还提出了一种新的数据增强技术，涉及位置编码，以增强对未见过位置的泛化能力。结果如下：首先，使用单个 A100，我们在 Llama2-7B 上实现了 32K 序列长度的微调，这比其他依赖子集进行回归的方法更有效。其次，我们提出了一种全面的方法，用于在预训练、微调和推理阶段扩展上下文长度。在预训练期间，我们的注意力机制在令牌选择过程中部分打破了翻译不变性，因此我们仅将位置编码应用于所选令牌。这种方法实现了相对较高的性能和显著的推断能力。对于微调，我们引入了循环的、随机截断的和动态增长的 NTK 位置嵌入（CRD NTK）。这种设计允许使用仅 16K 的序列长度进行微调，使 Llama2-7B 和 Mistral-7B 等模型能够以高达 1M 或甚至任意长度的上下文长度进行推理。我们的方法在 4M 上下文长度的通行证任务上实现了 100% 的准确率，并在 1M 上下文长度下保持稳定的困惑度。与传统的全注意力机制相比，这至少减少了 64 倍的资源需求，同时仍然实现了具有竞争力的性能。

发布时间: 10/8/2024

查看原文

长文本生成基准测试：LongGenBench

作者: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu

当前的长期上下文基准主要集中在基于检索的测试上，要求大型语言模型 (LLM) 在广泛的输入上下文中定位特定信息，例如针线 haystack (NIAH) 基准。长期上下文生成是指语言模型生成跨越长段落或文档的连贯且上下文准确文本的能力。虽然最近的研究表明在 NIAH 和其他基于检索的长期上下文基准测试中表现出色，但缺乏评估长期上下文生成能力的基准。为了弥合这一差距并提供全面的评估，我们引入了合成基准 LongGenBench，它允许灵活配置自定义生成上下文长度。LongGenBench 通过重新设计问题的格式并要求 LLM 以单个连贯的长期上下文答案进行响应，超越了传统的基准。通过使用 LongGenBench 进行广泛的评估，我们观察到：(1) API 访问和开源模型在长期上下文生成场景中表现出性能下降，范围从 1.2% 到 47.1%；(2) 不同系列的 LLM 表现出不同的性能下降趋势，Gemini-1.5-Flash 模型在 API 访问模型中表现出最小的下降，Qwen2 系列在 LongGenBench 中表现出最小的下降。

发布时间: 10/8/2024

查看原文

基于一对多知识蒸馏加速扩散模型

作者: Linfeng Zhang, Kaisheng Ma

扩散模型在图像生成方面取得了显著进展。然而，与之前的生成模型相比，扩散模型面临着巨大的计算开销，导致无法实时生成。最近的方法旨在通过改进的采样技术或步骤蒸馏来减少采样步骤，从而加速扩散模型。然而，减少每个时间步的计算成本的方法仍然是一个相对未探索的领域。观察到扩散模型在不同的时间步具有不同的输入分布和特征分布，我们引入了“一对多”知识蒸馏 (O2MKD)，它将单个教师扩散模型蒸馏成多个学生扩散模型，其中每个学生扩散模型被训练来学习教师对连续时间步子集的知识。在 CIFAR10、LSUN Church、CelebA-HQ (使用 DDPM) 和 COCO30K (使用 Stable Diffusion) 上的实验表明，O2MKD 可以应用于之前知识蒸馏和快速采样方法，以实现显著的加速。代码将在 Github 上发布。

发布时间: 10/8/2024

查看原文

基于对象偏好的形式概念分析的非单调扩展

作者: Lucas Carr, Nicholas Leisegang, Thomas Meyer, Sebastian Rudolph

形式概念分析 (FCA) 是一种创建概念层次结构的方法，其中从一个 \textit{形式上下文} 生成一个 \textit{概念格}。即，由对象集 $G$、属性集 $M$ 以及 $G \times M$ 上的关联关系 $I$ 组成的三元组。然后，一个 \textit{概念} 被建模为一对，包含一组对象（\textit{外延}）和一组共享属性（\textit{内涵}）。FCA 中的蕴涵描述了如何从一组属性推导出另一组属性。这些蕴涵的语义与经典逻辑中的逻辑推论非常相似。从这个意义上说，它描述了一个单调条件。本文的贡献有两个方面。首先，我们介绍了属性集之间的非单调条件，它假设对对象集的偏好。我们证明了这种条件会导致一个与 Kraus、Lehmann 和 Magidor 提出的非单调性公理（通常称为 KLM 公理）一致的推论关系。我们认为我们的贡献为 FCA 中的非单调性建立了一个强有力的特征。典型概念代表内涵与外延预期一致的概念，允许对概念进行容错视图。为此，我们证明了所有典型概念的集合是原始概念格的交半格。这个典型概念的概念是将 KLM 风格的典型性进一步引入 FCA，并且是开发表示原型概念概念格的代数结构的基础。

发布时间: 10/8/2024

查看原文

IV-混合采样器：利用图像扩散模型增强视频合成

作者: Shitong Shao, Zikai Zhou, Lichen Bai, Haoyi Xiond, Zeke Xie

多步采样机制是视觉扩散模型的关键特征，它具有显著的潜力来复制 OpenAI 的 Strawberry 的成功，通过增加推理计算成本来提升性能。已有充分的先验研究表明，在采样过程中正确地扩展计算量可以成功地提升生成质量、增强图像编辑和组合泛化能力。虽然在开发推理密集型算法以改善图像生成方面取得了快速进展，但对视频扩散模型 (VDM) 中的推理缩放规律的研究相对较少。此外，现有研究表明，只有微不足道的性能提升是肉眼可见的。为了解决这个问题，我们设计了一种新颖的无训练算法 IV-Mixed Sampler，它利用图像扩散模型 (IDM) 的优势来帮助 VDM 超越其当前的能力。IV-Mixed Sampler 的核心是利用 IDM 显着提高每个视频帧的质量，并利用 VDM 在采样过程中确保视频的时间一致性。我们的实验表明，IV-Mixed Sampler 在包括 UCF-101-FVD、MSR-VTT-FVD、Chronomagic-Bench-150 和 Chronomagic-Bench-1649 在内的 4 个基准测试中取得了最先进的性能。例如，使用 IV-Mixed Sampler 的开源 Animatediff 将 UMT-FVD 分数从 275.2 降至 228.6，接近于闭源 Pika-2.0 的 223.1。

发布时间: 10/8/2024

查看原文

基于量子自编码器的时序异常检测应用

作者: Robin Frehner, Kurt Stockinger

异常检测是一个重要的问题，在欺诈检测、模式识别或医疗诊断等各个领域都有应用。许多算法已使用经典计算方法引入。然而，利用量子计算来解决时间序列数据中的异常检测问题是一个尚未得到广泛探索的研究领域。本文探讨了量子自动编码器在时间序列异常检测中的应用。我们研究了两种主要的异常分类技术：（1）分析量子自动编码器生成的重建误差，以及（2）潜在表示分析。我们在各种 ansaetze 上进行的模拟实验结果表明，量子自动编码器在多个数据集上始终优于基于经典深度学习的自动编码器。具体而言，量子自动编码器在使用 60-230 倍的参数和训练迭代次数少 5 倍的情况下，实现了更优异的异常检测性能。此外，我们在真实的量子硬件上实现了我们的量子编码器。我们的实验结果表明，量子自动编码器在异常检测性能方面与其模拟对应物相当。

发布时间: 10/8/2024

查看原文

自然语言解释推理

作者: Marco Valentino, Andr\'e Freitas

解释是人类理性的典型特征，它支撑着学习和泛化，并且是支持科学发现和交流的媒介之一。由于解释在人类推理中的重要性，自然语言推理 (NLI) 的研究越来越多地开始重新考虑解释在学习和推理中所起的作用，试图构建基于解释的 NLI 模型，这些模型能够有效地对自然语言解释进行编码并在下游任务中使用它们。然而，基于解释的 NLI 研究提出了特定的挑战和机遇，因为解释性推理反映了物质推理和形式推理的各个方面，使其成为一个特别丰富的环境，可以用来建模和交付复杂的推理。在本教程中，我们将对基于解释的 NLI 领域进行全面介绍，将本次讨论建立在解释的认识论-语言基础之上，系统地描述可用于构建能够进行解释性推理的系统的主要架构趋势和评估方法。

发布时间: 10/8/2024

查看原文

从阅读到压缩：探索多文档阅读器用于提示压缩

作者: Eunseong Choi, Sunkyung Lee, Minjin Choi, June Park, Jongwuk Lee

大型语言模型（LLM）通过先进的提示技术在各种任务中取得了显著的性能提升。然而，提示长度的增加导致了高昂的计算成本，并且经常掩盖关键信息。提示压缩被提出来缓解这些问题，但它面临着（i）捕获全局上下文和（ii）有效地训练压缩器这两个挑战。为了应对这些挑战，我们提出了一种新颖的提示压缩方法，即阅读到压缩（R2C），利用融合解码器（FiD）架构来识别提示中的重要信息。具体来说，FiD的交叉注意力分数被用来从提示中识别出重要的片段和句子。R2C有效地捕获了全局上下文，在不影响语义一致性的情况下，绕过了训练压缩器所需的伪标签。实证结果表明，R2C保留了关键上下文，在域外评估中将LLM性能提高了6%，同时将提示长度缩短了80%。

发布时间: 10/8/2024

查看原文