arXiv 论文列表

向经济高效的推理迈进：在任何基于Transformer的大型语言模型中启用DeepSeek的多头潜在注意力功能

作者: Tao Ji, Bin Guo, Yuanbin Wu, Qipeng Guo, Lixing Shen, Zhan Chen, Xipeng Qiu, Qi Zhang, Tao Gui

arXiv:2502.14837v1 交叉类型: cross 摘要: 多头潜在注意（MLA）是由DeepSeek提出的一种创新架构，旨在通过显著压缩键-值（KV）缓存为潜在向量来确保高效和经济的推理。与MLA相比，采用多头注意（MHA）及其变体如组查询注意（GQA）的标准LLM在成本上显示出显着的劣势。使具有良好训练的LLM（例如Llama）能够快速适应MLA而无需从头开始进行预训练，既具意义又具挑战性。本文提出了一种高效的数据调整方法（从MHA到MLA的调整，即MHA2MLA），其中包括两个关键组件：对于部分RoPE，我们从对注意力分数贡献较小的查询和键的维度移除RoPE；对于低秩近似，我们引入基于预训练的键和值参数的联合SVD近似。这些精心设计的策略使得MHA2MLA仅使用数据的极小部分（0.3%到0.6%）就能恢复性能，大幅降低了推理成本，并无缝地与KV缓存量化等压缩技术集成。例如，Llama2-7B的KV缓存大小减少了92.19%，仅在LongBench性能上下降了0.5%。

发布时间: 2/21/2025

查看原文

LongWriter-V： Enables 超长高保真生成能力于视觉语言模型中

作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

arXiv:2502.14834v1 类型：交叉摘要：现有的大型视觉-语言模型（LVLMs）可以处理多达128k个视觉和文本 token 的输入，但它们在生成超过1,000个词的连贯输出方面存在困难。我们发现，主要限制在于监督微调（SFT）期间缺乏长输出示例。为了解决这个问题，我们引入了LongWriter-V-22k，这是一个包含22,158个例子的SFT数据集，每个例子包含多个输入图像、一条指令以及相应的输出，这些输出的长度范围从0到10,000个词。此外，为了实现与输入图像高度保真的长时间输出，我们对SFT模型采用了直接偏好优化（DPO）。鉴于长时间输出（例如3,000个词）的人工反馈成本高昂，我们提出了IterDPO，该方法将长输出分割成段落，并通过迭代修正形成与原始输出的偏好对。此外，我们还开发了MMLongBench-Write，这是一个包含六个任务的基准测试，用于评估VLMs的长生成能力。使用LongWriter-V-22k和IterDPO训练的7B参数模型，我们在该基准测试中取得了令人印象深刻的性能，优于如GPT-4o等更大的私有模型。代码和数据：https://github.com/THU-KEG/LongWriter-V

发布时间: 2/21/2025

查看原文

改善自编码器的扩散性

作者: Ivan Skorokhodov, Sharath Girish, Benran Hu, Willi Menapace, Yanyu Li, Rameen Abdal, Sergey Tulyakov, Aliaksandr Siarohin

arXiv:2502.14831v1 类型: cross 摘要：潜扩散模型已成为生成高质量图像和视频的领先方法，利用压缩的潜空间表示来减轻扩散过程的计算负担。尽管最近的研究主要集中在扩展扩散主干和提高自编码器的重构质量上，但这些组件之间的交互却得到了相对较少的关注。在本文中，我们对现代自编码器进行了频谱分析，并发现其潜空间中存在异常高的高频分量，特别是在瓶颈通道尺寸大的自编码器中尤为显著。我们假设这种高频分量干扰了扩散合成过程中的自底向上性质，从而阻碍了生成质量。为了解决这一问题，我们提出了尺度不变性：这是一种简单的设计策略，通过强制解码器在不同频率上保持尺度不变性，来对齐潜空间和RGB空间。这种方法只需少量代码更改，并且最多只需要20,000次自编码器微调步骤，但显著提高了生成质量，在ImageNet-1K 256x256图像生成中将FID降低了19%，在Kinetics-700 17x256x256视频生成中将FVD降低了至少44%。

发布时间: 2/21/2025

查看原文

中间层表示对齐以实现细调大语言模型的跨语言转移

作者: Danni Liu, Jan Niehues

arXiv:2502.14830v1 跨语言类型：交叉摘要：尽管通过微调可以在特定任务中展示出显著的能力，但将这些优势扩展到多种语言对于广泛的可访问性至关重要。然而，由于大型语言模型在不同语言上的表现差异以及许多语言缺乏微调数据，有效的跨语言迁移受到了阻碍。通过对超过1,000种语言对的大型语言模型内部表示的分析，我们发现中间层表现出最强的跨语言对齐潜力。基于这一发现，我们提出了一种集成在特定任务训练中的中间层对齐目标。我们在槽填充、机器翻译和结构化文本生成任务上的实验显示了跨语言迁移的一致改进，特别是在低资源语言上的改进尤为明显。该方法对对齐语言的选择具有鲁棒性，并能在未见过的语言上泛化。此外，我们展示了单独训练的对齐模块可以与现有的特定任务模块合并，而不需进行全面的重新训练即可提高跨语言能力。我们的代码已在开源（https://github.com/dannigt/mid-align）上公开。

发布时间: 2/21/2025

查看原文

探索视觉问答的高级技术：全面比较

作者: Aiswarya Baby, Tintu Thankom Koshy

arXiv:2502.14827v1 声明类型：cross 摘要：视觉问答（VQA）已经成为计算机视觉与自然语言处理交叉领域的关键任务，要求模型能够理解并根据自然语言问题对视觉内容进行推理。分析VQA数据集对于开发能够处理多模态推理复杂性的稳健模型至关重要。已经开发出多种方法来检查这些数据集，每种方法都提供了关于问题多样性、答案分布和视觉-文本相关性的独特视角。尽管取得了显著进展，但现有的VQA模型仍然面临数据集偏差、模型复杂度有限、常识推理缺口、僵硬的评估方法以及在现实世界场景中的泛化能力等方面的挑战。本文对五种先进的VQA模型进行了全面的比较研究：ABC-CNN、KICNLE、遮蔽视觉和语言建模、BLIP-2 和 OFA，每种模型都采用了不同的方法来应对这些挑战。

发布时间: 2/21/2025

查看原文

eC-Tab2Text：从电子商务产品表格生成方面文本

作者: Luis Antonio Guti\'errez Guanilo, Mir Tafseer Nayeem, Cristian L\'opez, Davood Rafiei

arXiv:2502.14820v1 Announce Type: cross 摘要：大规模语言模型（LLMs）在多种领域中展现了非凡的多功能性，但在电子商务中的应用仍因缺乏特定领域的数据集而未得到充分利用。为解决这一问题，我们提出了eC-Tab2Text，一个旨在捕获电子商务复杂性的新数据集，包括详细的产品属性和用户特定的查询。利用eC-Tab2Text，我们专注于从产品表格中生成文本，使LLMs能够从结构化表格数据中生成高质量、属性特定的产品评论。精细调整的模型使用标准的Table2Text指标进行了严格评估，并进行了正确性、忠实度和流畅度的评估。我们的结果表明，在生成上下文相关评论方面取得了显著进步，突显了针对特定数据集和调整方法优化电子商务工作流程的潜力。这项工作强调了LLMs在电子商务工作流程中的潜力，以及特定领域数据集在适应行业特定挑战方面的重要作用。

发布时间: 2/21/2025

查看原文

胎儿CLIP：一种胎儿超声图像分析的视觉-语言基础模型

作者: Fadillah Maani, Numan Saeed, Tausifa Saleem, Zaid Farooq, Hussain Alasmawi, Werner Diehl, Ameera Mohammad, Gareth Waring, Saudabi Valappi, Leanne Bricker, Mohammad Yaqub

arXiv:2502.14807v1 基础模型类型：跨领域摘要：基础模型在医疗领域变得越来越有效，提供了可以在大型数据集上预先训练的模型，这些模型可以轻松适应下游任务。尽管取得了进展，但由于其固有的复杂性，胎儿超声图像仍然是基础模型的一个具有挑战性的领域，通常需要大量的额外训练，并受到配对多模态数据稀缺性的限制。为了克服这些挑战，我们在此引入了FetalCLIP，这是一种能够生成胎儿超声图像通用表示的视觉-语言基础模型。FetalCLIP是使用包含210,035张配对文本的多样化胎儿超声图像数据集的多模态学习方法预先训练的。这代表了迄今为止用于基础模型开发的最大规模的配对数据集。这种独特的训练方法使FetalCLIP能够有效地学习胎儿超声图像中复杂的解剖学特征，从而生成稳健的表示，这些表示可以用于多种下游应用。在涵盖胎儿超声图像分类、孕期年龄估计、先天性心脏病（CHD）检测以及胎儿结构分割等关键应用场景的广泛基准测试中，FetalCLIP在所有基线之上表现出色，同时展示了出色的泛化能力和即使在少量标注数据的情况下也表现出强大的性能。我们计划公开发布FetalCLIP模型，以造福更广泛的科学界。

发布时间: 2/21/2025

查看原文

从RAG到记忆：大型语言模型的非参数连续学习

作者: Bernal Jim\'enez Guti\'errez, Yiheng Shu, Weijian Qi, Sizhe Zhou, Yu Su

arXiv:2502.14802v1 Announce Type: cross 摘要：人类智能的关键特征之一是持续获取、组织和利用知识的能力，AI系统必须逼近这一点，以充分发挥其潜力。鉴于大规模语言模型（LLMs）持续学习的挑战，检索增强生成（RAG）已成为引入新信息的主要方式。然而，它依赖于向量检索，阻碍了其模仿人类长期记忆的动态和相互关联性质的能力。最近的RAG方法通过使用知识图等结构来增强向量嵌入，以解决这些差距中的部分问题，例如意义建构和关联性。然而，在更基本的实质性记忆任务上，它们的表现远低于标准的RAG。我们解决了这种意外的退化，并提出了一种名为HippoRAG 2的框架，在实质性记忆、意义建构和关联记忆任务上全面超越了标准的RAG。HippoRAG 2在此基础上延伸了HippoRAG中使用的个性化PageRank算法，并通过更深入的段落整合和更有效的LLM在线使用方式进行了增强。这种组合使得该RAG系统更接近于人类长期记忆的有效性，在关联记忆任务上比最先进的嵌入模型提高了7%的性能，同时在事实知识和意义建构记忆能力方面表现出色。这项工作为LLMs的非参数持续学习铺平了道路。我们的代码和数据将在https://github.com/OSU-NLP-Group/HippoRAG发布。

发布时间: 2/21/2025

查看原文

文本驱动的360度全景图生成综述

作者: Hai Wang, Xiaoyu Xiang, Weihao Xia, Jing-Hao Xue

arXiv:2502.14799v1 声明类型：交叉摘要：文本驱动的360度全景生成的出现，使得可以直接从文本描述合成360度全景图像，标志着沉浸式视觉内容创作的一个变革性进步。这一创新大大简化了传统上复杂的内容生产过程。近期在文本到图像扩散模型方面的进展加速了这一新兴领域的快速发展。本文综述了文本驱动的360度全景生成，提供了最新的算法及其在360度3D场景生成中的广泛应用的深入分析。此外，我们批判性地审视了当前的局限性，并提出了未来研究的有希望的方向。有关资源和研究论文的精选项目页面可在 https://littlewhitesea.github.io/Text-Driven-Pano-Gen/ 获取。

发布时间: 2/21/2025

查看原文

通过元上下文学习快速学习单词

作者: Wentao Wang, Guangyuan Jiang, Tal Linzen, Brenden M. Lake

arXiv:2502.14791v1 交叉公告类型：cross 摘要：人类可以迅速从几个示例中学会新词，并且能够系统灵活地在新的语言环境中使用这些新词。然而，当前用于少量样本词汇学习的语言模型的能力及其改进方法尚未得到充分探索。在本研究中，我们提出了一种新的方法，即基于上下文学习词汇的元训练方法（Minnow）。这种方法通过使用一个特殊的占位符标记来表示新词，训练语言模型根据少量的上下文示例生成新词的使用示例。这种训练被应用于许多新词以培养一种通用的词汇学习能力。我们发现，通过Minnow从零开始对适用于儿童的语言进行训练，使得模型在少量样本词汇学习方面表现出强大的能力，与更大规模数据预训练的语言模型（LLM）具有可比性。此外，通过辨别性和生成性评估，我们表明使用Minnow对预训练的大语言模型进行微调能够提高它们区分新词、识别新词的句法类别，并基于一个或几个上下文示例生成合理的新词使用示例和定义的能力。这些发现突显了Minnow的数据效率及其在词汇学习任务中提高语言模型性能的潜力。

发布时间: 2/21/2025

查看原文