arXiv 论文列表

CypherBench：在大语言模型时代面向大规模现代知识图谱的精确检索方法研究

作者: Yanlin Feng, Simone Papicchio, Sajjadur Rahman

arXiv:2412.18702v2 宣布类型:替换-交叉摘要：从图数据检索对于增强大语言模型（LLM）的开放域知识和私有企业数据至关重要，也是最近GraphRAG系统（edge等，2024）中的关键组件。尽管在知识图谱和知识问答领域已有几十年的研究，但领先的LLM框架（如Langchain和LlamaIndex）对现代百科知识图谱（如Wikidata）的支持仍然非常有限。在本文中，我们分析了根本原因，并认为现代RDF知识图谱（如Wikidata、Freebase）对LLM不够高效，原因在于其过于庞大的模式，远远超过了典型的LLM上下文窗口；使用资源标识符；关系类型重叠；以及缺乏规范化。为了解决这一问题，我们建议在底层RDF图之上提供属性图视图，使得LLM可以使用Cypher进行高效查询。我们通过在Wikidata上实现了这一想法，并引入了CypherBench，这是首个包含11个大规模、多领域属性图的基准，拥有780万个实体和超过1万个问题的基准。为了实现这一点，我们克服了几项关键挑战，包括开发RDF到属性图转换引擎、创建从文本到Cypher的任务生成系统性管道，以及设计新的评估指标。

发布时间: 4/8/2025

查看原文

评估和提升多轮多类型问题文本到SQL的LLM性能

作者: Ziming Guo, Chao Ma, Yinggang Sun, Tiancheng Zhao, Guangyao Wang, Hai Huang

arXiv:2412.17867v3 宣告类型: replace-cross 摘要：近年来，大型语言模型（LLMs）在文本到SQL系统方面取得了显著进展。然而，大多数基于LLM的方法往往狭隘地专注于SQL生成，忽视了现实世界对话查询的复杂性。这种忽视可能导致对答案的不可靠性，特别是那些不能直接用SQL回答的具有歧义的问题。为了弥补这一差距，我们提出了MMSQL，这是一个全面的测试套件，旨在通过模拟各种问题类型和多轮问答交互来评估LLMs的问题分类和SQL生成能力。利用MMSQL，我们评估了流行的LLM，包括开源和封闭源模型，并确定了这些场景中影响其性能的关键因素。此外，我们介绍了一种基于LLM的多智能体框架，该框架使用专门的智能体来识别问题类型并确定适当的回答策略。我们的实验表明，这种方法显著增强了模型处理对话动态复杂性的能力，有效地处理了用户查询的多样性和复杂性。我们的数据集和代码可以在 https://mcxiaoxiao.github.io/MMSQL 公开获取。

发布时间: 4/8/2025

查看原文

VidCtx：基于图像模型的上下文感知视频问答

作者: Andreas Goulas, Vasileios Mezaris, Ioannis Patras

arXiv:2412.17415v2 论文类型：replace-cross 摘要：为了解决大型多模态模型在视频问答任务中面临的计算和内存限制问题，最近的几种方法会为每一帧提取文本表示（例如通过字幕），然后将其输入到大型语言模型（LLM）中，LLM会对这些文本表示进行处理以生成最终的回答。然而，在这种方式下，LLM无法访问视觉信息，并且通常需要处理相邻帧的重复文本描述。为了解决这些问题，本文提出了一种名为VidCtx的新型无训练框架，该框架结合了两种模态，即输入帧的视觉信息和提供适当上下文的其他帧的文本描述。更具体地，在所提出的框架中，一个预训练的大型多模态模型（LMM）在定期提取问题感知的视频帧文本描述（字幕）时被提示。在给定（a）某一帧、（b）问题和（c）适当帧的上下文/字幕时，该LMM被提示回答手头的问题。为了避免冗余信息，我们将作为上下文的选择为远处帧的描述。最后，我们使用一个简单而有效的最大池化机制来聚合帧级的决策。这种方法使模型能够专注于视频的相关片段，并能扩展到大量帧。实验结果表明，VidCtx在依赖开放模型的三个公开视频问答基准NExT-QA、IntentQA和STAR上实现了具有竞争力的性能。我们的代码可在 https://github.com/IDT-ITI/VidCtx 获取。

发布时间: 4/8/2025

查看原文

对抗域适应潜在扩散模型用于无监督语义分割

作者: Jongmin Yu, Zhongtian Sun, Chen Bene Chi, Jinhong Yang, Shan Luo

arXiv:2412.16859v2 公告类型: replace-cross 摘要：语义分割需要大量的像素级标注，因此推动了无监督领域适应（UDA），以便将已标注的来源领域知识转移到未标注或部分标注的目标领域。最有效的方法之一是利用在受限虚拟环境中生成的合成数据集，如视频游戏或交通模拟器，这些数据集可以自动生成像素级标注。然而，即使有这样的数据集可供使用，学习一种既能很好地概括又能捕捉两个领域特征的表示仍然是具有挑战性的，因为虚拟世界和现实世界图像之间的概率和几何差异。本文介绍了一种基于潜在扩散模型的语义分割方法，称为Inter-Coder Connected Latent Diffusion（ICCLD），以及一种无监督领域适应方法。该模型通过跨编码器连接增强上下文理解并保持细粒度细节，同时对抗学习在潜在扩散过程中对齐不同领域之间的潜在特征分布。在GTA5、Synthia和Cityscapes上的实验表明，ICCLD 在与当前最先进的UDA方法相比时表现出色，分别在GTA5→Cityscapes和Synthia→Cityscapes上实现了74.4和67.2的mIoU得分。

发布时间: 4/8/2025

查看原文

1.7B LLaMa模型的训练动力学：一种数据高效的方法

作者: Miles Q. Li, Benjamin C. M. Fung, Shih-Chia Huang

arXiv:2412.13335v3 宣告类型: replace-cross 摘要：预训练大型语言模型是一个受多个因素影响的复杂工程，包括模型架构、数据质量、训练连续性和硬件限制。在这篇论文中，我们分享了训练DMaS-LLaMa-Lite的经验，DMaS-LLaMa-Lite是一个完全开源的，包含17亿参数的LLaMa基模型，使用大约200亿个精心筛选的数据令牌。我们详细记录了整个训练轨迹，说明了随时间推移的验证损失水平和下游基准测试如何反映从不连贯的文本转变为流畅、语境相关输出的过程。除了预训练之外，我们还将分析扩展到包括后训练阶段，该阶段重点进行指令调优，使模型能够生成更上下文相关，并符合用户需求的响应。我们强调了实用的考虑因素，例如从检查点恢复优化器状态的重要性，以及硬件变化对训练稳定性和吞吐量的影响。虽然定性的评估提供了对模型改进的直观理解，但我们的分析还延伸到各种性能基准测试，证明了高质量数据和仔细的扩展如何使训练数据显著减少时仍能获得具有竞争力的结果。通过详细阐述这些经验，并提供训练脚本、检查点和样本输出，我们旨在引导未来的研究人员和从业人员改进他们的预训练策略。训练脚本可在GitHub上获取，网址为https://github.com/McGill-DMaS/DMaS-LLaMa-Lite-Training-Code。模型检查点可在Huggingface上获取，网址为https://huggingface.co/collections/McGill-DMaS/dmas-llama-lite-6761d97ba903f82341954ceb。

发布时间: 4/8/2025

查看原文

模式类比：通过类比学习执行程序化图像编辑

作者: Aditya Ganeshan, Thibault Groueix, Paul Guerrero, Radom\'ir M\v{e}ch, Matthew Fisher, Daniel Ritchie

arXiv:2412.12463v2 Announce Type: replace-cross 摘要：模式图像在数字和物理世界中无处不在，编辑它们的工具非常重要。但编辑模式图像往往很棘手：所需的编辑往往是程序化的：结构感知的编辑，它们会改变生成模式的基础程序。人们可以尝试推断出这种基础程序，但当前为此目的的方法对于复杂的图像而言效果不佳，并且生成的程序往往是杂乱无章的，使得编辑变得繁琐。在本文中，我们介绍了一种新的方法，用于对模式图像进行程序化编辑。通过使用模式类比——一对简单的模式来展示所期望的编辑——以及学习驱动的生成模型来执行这些编辑，我们的方法使用户能够直观地编辑模式。为使这一范式得以实现，我们引入了SplitWeave，这是一种领域特定语言，结合了一种生成合成模式类比的采样框架，从而能够创建一个庞大且高质量的合成训练数据集。我们还介绍了TriFuser，这是一种潜空间扩散模型（LDM），设计用于解决在简单部署LDM到此任务时出现的关键问题。在对实际世界、艺术家提供的模式进行的广泛实验中，我们发现我们的方法不仅忠实地执行了展示的编辑，还能泛化到其训练分布之外的相关模式风格。

发布时间: 4/8/2025

查看原文

FSFM: 一种通过自监督面部表示学习实现的可泛化面部安全基础模型

作者: Gaojian Wang, Feng Lin, Tong Wu, Zhenguang Liu, Zhongjie Ba, Kui Ren

arXiv:2412.12032v3 通知类型: 替换-交叉摘要: 在有大量的未标记真实人脸的情况下，如何学习一种鲁棒且可迁移的人脸表示，从而在泛化性能上提升各种面部安全任务？我们提出了第一个尝试，并提出了一种自监督预训练框架，用于学习真实人脸图像的基本表示——FSFM，该框架结合了掩码图像建模（MIM）和实例鉴别（ID）的优点。我们探索了各种面部掩模策略以应用于MIM，并提出了一种简单而强大的CRFR-P掩模方法，该方法明确地促使模型捕捉有意义的内部区域一致性以及具有挑战性的外部区域一致性。此外，我们设计了一种与MIM自然结合的ID网络，通过定制的自我蒸馏建立局部到全局的对应关系。这三个学习目标，即3C，实现了对真实人脸的局部特征和全局语义的编码。在预训练之后，一个普通的ViT作为下游面部安全任务的基础模型：跨数据集的深度伪造检测、跨领域的面部防欺骗和未见过的扩散伪造面部检测的基础。广泛的实验表明，我们的模型在泛化性能上优于有监督预训练、视觉和面部自监督学习方法，甚至优于专门针对任务的SOTA方法。

发布时间: 4/8/2025

查看原文

如何选择切片进行标注以训练性能最佳的深度学习医学断层图像分割模型？

作者: Yixin Zhang, Kevin Kramer, Maciej A. Mazurowski

arXiv:2412.08081v2 宣告类型: replace-cross 摘要：自动化医学图像分割高度依赖于精确的手动注释可用性。然而，生成这些注释往往耗时、昂贵，并且有时需要专门的专家知识（特别是在生成横截面医学图像的注释时）。因此，优化注释资源的使用以确保效率和有效性至关重要。在本文中，我们系统地回答了这样一个问题：“在非交互式注释流水线中，为了最大化最终深度学习分割模型的性能，应如何选择横截面医学图像的切片进行注释？”我们在不同的注释预算、标注病例数量、每个体素的标注切片数量、切片选择技术以及掩模插值方法下，针对4种医学成像分割任务进行了实验。我们发现： 1) 给定注释预算，每次体素标注更少的切片而标注更多体素几乎是更优的选择。 2) 通过无监督主动学习（UAL）选择标注切片，如果每个体素分配的标注切片数量相同，并不优于随机选择或固定间隔选择切片。 3) 在大多数情况下，将标注切片之间的掩模进行插值并不会提升模型性能，但对某些特定的3D模型配置可能会有例外。

发布时间: 4/8/2025

查看原文

Track4Gen: 教视频扩散模型跟踪点以改善视频生成

作者: Hyeonho Jeong, Chun-Hao Paul Huang, Jong Chul Ye, Niloy Mitra, Duygu Ceylan

arXiv:2412.06016v3 通知类型: replace-cross 摘要：虽然近年来的基线视频生成器能够产生视觉丰富的输出，但它们仍然难以应对外观漂移的问题，即对象在帧内逐渐退化或不一致地变化，破坏了视觉一致性。我们假设这是因为在特征级别上缺乏空间跟踪的显式监督。我们提出了 Track4Gen，这是一种具有空间意识的视频生成器，它将视频扩散损失与跨帧的点跟踪相结合，为扩散特征提供了增强的空间监督。Track4Gen 通过最少地修改现有的视频生成架构，将视频生成任务和点跟踪任务合并到一个网络中。以 Stable Video Diffusion 作为骨干，Track4Gen 显示出有可能将视频生成和点跟踪统一，这两者通常被作为单独的任务来处理。我们的广泛评估表明，Track4Gen 有效地减少了外观漂移，从而实现了时间和视觉上的一致性视频生成。项目页面：hyeonho99.github.io/track4gen

发布时间: 4/8/2025

查看原文

基于语言引导的图像分词生成

作者: Kaiwen Zha, Lijun Yu, Alireza Fathi, David A. Ross, Cordelia Schmid, Dina Katabi, Xiuye Gu

arXiv:2412.05796v2 通知类型: 替换交叉摘要: 图像标记化，即把原始图像像素转换为紧凑的低维潜在表示的过程，已被证明对于可扩展和高效图像生成至关重要。然而，主流的图像标记化方法通常压缩率有限，使得高分辨率图像生成计算成本高昂。为了解决这一挑战，我们提出利用语言进行高效的图像标记化，并将我们的方法称为语言条件图像标记化 (TexTok)。TexTok 是一个简单而有效的标记化框架，利用语言提供紧凑的高层语义表示。通过将标记化过程与描述性文本描述符进行条件化，TexTok 简化了语义学习，从而使更多的学习能力和标记空间能够用于捕捉细微的视觉细节，从而提高重构质量和压缩率。与没有文本条件的传统标记器相比，TexTok 在 ImageNet-256 和 ImageNet-512 基准测试中分别在不同标记数量的情况下实现了平均 29.2% 和 48.1% 的重构 FID 改进。这些标记化改进始终转化为生成 FID 的 16.3% 和 34.3% 平均改进。通过将 Diffusion Transformer (DiT) 中的传统标记器替换为 TexTok，我们的系统在使用 32 个标记进行 ImageNet-512 时可以实现 93.5 倍的推理加速，同时仍优于原始 DiT。使用标准的 DiT 生成器，TexTok 在 ImageNet-256 和 ImageNet-512 上分别实现了 1.46 和 1.62 的最新 FID 分数。此外，我们在文本到图像生成任务中展示了 TexTok 的优越性，有效地利用了现成的文本描述符进行标记化。项目页面位于: https://kaiwenzha.github.io/textok/。

发布时间: 4/8/2025

查看原文