arXiv 论文列表

不留文档：用扩展的多文档问答对长上下文大型语言模型进行基准测试

作者: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li

大型语言模型（LLM）在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于 LLM 的方法...

发布时间: 10/4/2024

查看原文

文本分段：一种通用的鲁棒、高效、可适应的句子分割方法

作者: Markus Frohmann, Igor Sterner, Ivan Vuli\'c, Benjamin Minixhofer, Markus Schedl

将文本分割成句子是许多自然语言处理系统中的一个早期且至关重要的步骤。这通常是通过使用基于规则或统计的方法来实现的，这些方法依赖于诸如标点符号之类的词汇特征。尽管最近的一些工作不再完全依赖于标点符号，但我们发现，之前的方法都没有实现以下所有目标：（i）对缺少标点符号的鲁棒性，（ii）对新领域的有效适应性，以及（iii）高效率。我们引入了一个新的模型——Segment any Text (SaT)——来解决这个问题。为了增强鲁棒性，我们提出了一种新的预训练方案，该方案确保了对标点符号的依赖性降低。为了解决适应性问题，我们引入了参数高效微调的额外阶段，在歌词和法律文件等不同领域建立了最先进的性能。在此过程中，我们引入了架构修改，从而使速度比以前的最先进技术提高了三倍，并解决了对未来远距离上下文的虚假依赖问题。最后，我们引入了一个模型变体，该变体在多样化的、多语言的句子分割数据的混合数据集上进行了微调，作为现有分割工具的即插即用替换和增强。总的来说，我们的贡献为分割任何文本提供了一种通用的方法。我们的方法在跨越不同领域和语言的 8 个语料库中优于所有基线（包括强大的大型语言模型），特别是在文本格式不佳的实际应用场景中。我们的模型和代码（包括文档）在 https://github.com/segment-any-text/wtpsplit 下以 MIT 许可证发布。

发布时间: 10/4/2024

查看原文

Transformer 中的关键是什么？并非所有注意力都是必需的

作者: Shwai He, Guoheng Sun, Zheyu Shen, Ang Li

虽然基于 Transformer 的大型语言模型 (LLM) 的扩展在各种任务中展现出令人鼓舞的性能，但它也引入了冗余的架构，对现实世界部署带来了效率挑战。尽管已经认识到 LLM 中存在冗余，但 Transformer 中不同架构（如 MLP 和注意力层）的冗余变化却鲜有研究。在这项工作中，我们使用基于相似性的指标研究了 Transformer 内不同模块（包括块、MLP 和注意力层）的冗余。令人惊讶的是，尽管注意力层在区分 Transformer 与其他架构方面发挥着至关重要的作用，但我们发现这些层中很大一部分表现出过高的相似性，可以进行剪枝而不会降低性能。例如，Llama-2-70B 通过剪枝一半的注意力层，实现了 48.4% 的加速，性能仅下降了 2.4%。此外，通过追踪整个训练过程中的模型检查点，我们观察到注意力层冗余在训练阶段是固有的且一致的。此外，我们还提出了一种方法，可以同时丢弃注意力层和 MLP 层，从而使我们能够更积极地丢弃更多层。例如，在丢弃 31 个层（注意力 + MLP）的情况下，Llama-2-13B 在 MMLU 任务上的性能仍然保持了 90%。我们的工作为未来网络架构设计提供了宝贵的见解。代码已发布在：\url{https://github.com/Shwai-He/LLM-Drop}。

发布时间: 10/4/2024

查看原文

图像到视频扩散模型中条件图像泄露的识别与解决

作者: Min Zhao, Hongzhou Zhu, Chendong Xiang, Kaiwen Zheng, Chongxuan Li, Jun Zhu

扩散模型在图像到视频生成方面取得了重大进展。然而，本文发现这些模型往往会生成运动量低于预期的视频。我们将其归因于一种称为条件图像泄漏的问题，即图像到视频扩散模型（I2V-DMs）在较大的时间步长上往往过度依赖条件图像。我们从推理和训练两个方面来解决这一挑战。首先，我们建议从更早的时间步长开始生成过程，以避免 I2V-DMs 不可靠的较长时间步长，以及通过最小化其与实际边缘分布之间的 KL 散度来获得具有最佳解析表达式的初始噪声分布（Analytic-Init），从而缩小训练推理差距。其次，我们在训练期间为条件图像设计了一个时间相关的噪声分布（TimeNoise），在较大的时间步长上应用更高的噪声水平以扰乱它并减少模型对它的依赖。我们在我们收集的开放域图像基准和 UCF101 数据集上，对各种 I2V-DMs 验证了这些通用策略。大量的实验结果表明，我们的方法通过在保持图像对齐和时间一致性的同时，产生更高的运动得分和更低的误差，优于基线，从而产生更好的整体性能并实现更准确的运动控制。项目页面：\url{https://cond-image-leak.github.io/}。

发布时间: 10/4/2024

查看原文

基于模型内部机制的可信检索增强生成答案归因

作者: Jirui Qi, Gabriele Sarti, Raquel Fern\'andez, Arianna Bisazza

确保模型答案的可验证性是问答 (QA) 领域中检索增强生成 (RAG) 的一项基本挑战。最近，提出了自引用提示，以使大型语言模型 (LLM) 除了答案之外，还能生成对支持文档的引用。然而，自引用的 LLM 通常难以匹配所需的格式，引用不存在的来源，并且无法忠实地反映 LLM 在整个生成过程中对上下文的用法。在这项工作中，我们提出了 MIRAGE -- 基于模型内部的 RAG 解释 -- 一种即插即用方法，使用模型内部来实现 RAG 应用程序中忠实的答案归因。MIRAGE 检测上下文相关的答案标记，并将它们与通过显著性方法预测其预测的检索文档配对。我们在多语言抽取式 QA 数据集上评估了我们提出的方法，发现与人类答案归因高度一致。在开放式 QA 中，MIRAGE 实现了与自引用相当的引用质量和效率，同时还允许更精细地控制归因参数。我们的定性评估突出了 MIRAGE 归因的忠实性，并强调了模型内部在 RAG 答案归因中的有前景的应用。

发布时间: 10/4/2024

查看原文

PSLM：基于大型语言模型的文本和语音并行生成用于低延迟语音对话系统

作者: Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, Kei Sawada

能够处理文本和语音的多模态语言模型在语音对话系统中具有潜在应用价值。然而，当前模型在响应生成延迟方面面临着两大挑战：（1）生成语音响应需要先生成书面响应，（2）语音序列明显长于文本序列。本研究通过扩展语言模型的输入和输出序列来支持文本和语音的并行生成，从而解决了这些问题。我们在语音问答任务上的实验表明，我们的方法在保持响应内容质量的同时提高了延迟。此外，我们还证明了可以通过生成多个语音序列来进一步降低延迟。演示样本可在 https://rinnakk.github.io/research/publications/PSLM 获取。

发布时间: 10/4/2024

查看原文

多智能体大型语言模型作为生成对抗网络用于合成表格数据

作者: Yaobin Ling, Xiaoqian Jiang, Yejin Kim

在大数据时代，获取丰富的数据对于推动研究发展至关重要。然而，由于隐私问题或高昂的成本，这些数据往往难以获得，尤其是在医疗领域。生成合成（表格）数据可以解决这个问题，但现有模型通常需要大量数据才能有效训练，这与我们解决数据稀缺的目标相矛盾。为了应对这一挑战，我们提出了一种新颖的框架来生成合成表格数据，该框架由模仿生成对抗网络（GAN）架构的大型语言模型（LLM）驱动。通过将数据生成过程作为上下文信息并利用 LLM 作为优化器，我们的方法显著提高了小样本情况下合成数据生成质量。我们在公共和私有数据集上的实验结果表明，我们的模型在生成用于下游任务的高质量合成数据方面优于几种最先进的模型，同时保护了真实数据的隐私。

发布时间: 10/4/2024

查看原文

基于视觉运动链预测的操控学习扩展

作者: Xinyu Zhang, Yuhan Liu, Haonan Chang, Abdeslam Boularias

从多元数据集学习通用模型在机器学习领域取得了巨大成功。然而，在机器人学中，现有的多任务学习方法通常局限于单个机器人和工作空间，而最近的一些工作，如 RT-X，需要非平凡的动作归一化过程来手动弥合不同环境中不同动作空间之间的差距。本文提出视觉运动学链作为机器人跨不同环境学习的准静态动作的精确且通用表示，无需手动调整，因为视觉运动学链可以从机器人的模型和相机参数中自动获得。我们提出了视觉运动学转换器 (VKT)，一种无卷积架构，支持任意数量的相机视角，并通过单一目标进行训练，即通过最佳点集匹配预测运动学结构。我们在 Calvin、RLBench、Open-X 和真实机器人操作任务上证明了 VKT 作为通用代理优于 BC 变换器的性能。视频演示可在 https://mlzxy.github.io/visual-kinetic-chain 找到。

发布时间: 10/4/2024

查看原文

VideoPhy：评估视频生成中的物理常识

作者: Hritik Bansal, Zongyu Lin, Tianyi Xie, Zeshun Zong, Michal Yarom, Yonatan Bitton, Chenfanfu Jiang, Yizhou Sun, Kai-Wei Chang, Aditya Grover

近年来，互联网规模的视频数据预训练取得了重大进展，促使文本到视频生成模型的出现，这些模型能够跨越广泛的视觉概念创建高质量视频，合成逼真的运动并渲染复杂的物体。因此，这些生成模型有可能成为物理世界的通用模拟器。然而，目前尚不清楚现有文本到视频生成模型距离这一目标还有多远。为此，我们提出了 VideoPhy，这是一个旨在评估生成的视频是否遵循现实世界活动中物理常识的基准（例如，弹珠放在倾斜的表面上会滚下来）。具体来说，我们精心策划了各种提示，这些提示涉及物理世界中各种材料类型之间的相互作用（例如，固体-固体、固体-流体、流体-流体）。然后，我们根据这些来自各种最先进的文本到视频生成模型的标题生成视频，包括开放模型（例如，CogVideoX）和封闭模型（例如，Lumiere、Dream Machine）。我们的用户评估表明，现有模型严重缺乏生成符合给定文本提示的视频的能力，同时还缺乏物理常识。具体来说，表现最佳的模型 CogVideoX-5B 生成的视频只有 39.6% 的情况下符合标题和物理定律。因此，VideoPhy 强调了视频生成模型距离准确模拟物理世界还很远。最后，我们提出了一个自动评估器 VideoCon-Physics，以便可靠地评估新发布的模型的性能。

发布时间: 10/4/2024

查看原文

金字塔KV：基于金字塔信息漏斗的动态KV缓存压缩

作者: Zefan Cai, Yichi Zhang, Bofei Gao, Yuliang Liu, Tianyu Liu, Keming Lu, Wayne Xiong, Yue Dong, Baobao Chang, Junjie Hu, Wen Xiao

本研究探讨了大型语言模型 (LLMs) 内部基于注意力的信息流是否通过明显的模式聚合，以进行长上下文处理。我们的观察表明，LLMs 通过金字塔信息漏斗聚合信息，其中注意力在较低层广泛分散，逐渐在特定上下文中整合，最终集中在较高层中的关键词元（即大量激活或注意力汇聚）。受这些见解的启发，我们开发了 PyramidKV，这是一种新颖且有效的 KV 缓存压缩方法。这种方法动态调整不同层级的 KV 缓存大小，在较低层分配更多缓存，在较高层分配更少缓存，这与传统的保持统一 KV 缓存大小的方法不同。我们使用 LongBench 基准进行的实验评估表明，PyramidKV 匹配了具有完整 KV 缓存的模型的性能，同时仅保留了 12% 的 KV 缓存，从而显着减少了内存使用量。在强调内存效率的场景中，仅保留 0.7% 的 KV 缓存时，PyramidKV 超越了其他 KV 缓存压缩技术，在 TREC 数据集上实现了高达 20.5 的绝对精度提升。在 Needle-in-a-Haystack 实验中，PyramidKV 在保持 LLMs 中的长期上下文理解方面优于竞争方法；值得注意的是，仅保留 128 个 KV 缓存条目，LLAMA-3-70B 模型就能实现 100% 的 Acc. 性能，与完整 KV 缓存的性能相匹配。

发布时间: 10/4/2024

查看原文