arXiv 论文列表

DefectFill：基于 inpainting 差分模型的现实缺陷生成用于视觉检测

作者: Jaewoo Song, Daemin Park, Kanghyun Baek, Sangyub Lee, Jooyoung Choi, Eunji Kim, Sungroh Yoon

arXiv:2503.13985v2 通告类型: 替换-交叉摘要: 由于缺陷数据稀缺，开发有效的视觉检测模型仍然具有挑战性。尽管已经使用图像生成模型来合成缺陷图像，但生成高度真实的缺陷仍然困难重重。我们提出了一种名为 DefectFill 的新颖方法，仅需少量参考缺陷图像即可进行真实的缺陷生成。该方法利用了一种微调的 inpainting 扩散模型，该模型通过整合缺陷、对象和注意力项的自定义损失函数进行了优化。这种方法能够精确捕捉详细的、局部的缺陷特征，并将这些特征无缝地整合到无缺陷的对象中。此外，我们还提出了低保真度选择方法，进一步提高了缺陷样本的质量。实验结果表明，DefectFill 生成了高质量的缺陷图像，使视觉检测模型在 MVTec AD 数据集上达到了最先进的性能。

发布时间: 3/28/2025

查看原文

KV-缓存压缩在张量变换器解码中的时间与内存trade-off

作者: Yifang Chen, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Yu Tian

arXiv:2503.11108v2 宣告类型: replace-cross 摘要：在张量版本的变压器中，键值（KV）缓存在推理过程中构成了一个显著的瓶颈。虽然以往的工作分析了标准注意力机制中的基本空间复杂性障碍[Haris 和 Onak, 2025]，我们的工作将这些空间复杂性障碍的结果推广到了张量注意力版本。我们的理论贡献依赖于从通信复杂性的问题减少，并推导出当 $d = \Omega(\log n)$ 时，张量结构化注意力机制所需的最低内存界限。此外，我们介绍了两种类型的张量注意力缓存，并在两种场景中提出了时间和内存之间的权衡。总体而言，我们的工作为理解张量注意力解码中 KV-Cache 压缩的时间-内存权衡提供了理论基础，并为开发更高效的张量注意力变压器架构提供了更多视角。

发布时间: 3/28/2025

查看原文

认知心理大模型：通过在线文本评估大型语言模型在心理健康预测中的推理能力

作者: Avinash Patil, Amardeep Kour Gedhu

arXiv:2503.10095v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在从在线文本预测心理健康结果方面展现了潜力，但传统分类方法往往缺乏可解释性和稳健性。本研究评估了结构化推理技术——Chain-of-Thought（CoT）、Self-Consistency（SC-CoT）和Tree-of-Thought（ToT）——以提高多个来源于Reddit的心理健康数据集的分类准确性。我们使用平衡准确率、F1分数和灵敏度/特异度等关键性能指标分析了基于推理的提示策略，包括零样本CoT和少量样本CoT。研究表明，增强推理的技术在直接预测方面提高了分类性能，特别是在复杂情况下表现尤为明显。与零样本非CoT提示、经过微调的预训练变压器模型（如BERT和Mental-RoBerta）以及开源的大型语言模型（如Mental Alpaca和Mental-Flan-T5）相比，基于推理的LLM在Dreaddit（+0.52%相对于M-LLM，+0.82%相对于BERT）和SDCNL（+4.67%相对于M-LLM，+2.17%相对于BERT）数据集上表现出了显著的提升。然而，在抑郁症严重程度和CSSRS预测中，性能有所下降，这可能是因为我们使用了更广泛的测试集导致数据集特定的限制。在提示策略中，少量样本CoT一直表现出色，进一步证明了基于推理的LLM的有效性。然而，数据集的变异性突显了模型可靠性和可解释性方面的挑战。本研究为心理健康的文本分类提供了基于推理的LLM技术的全面基准。它为这些技术在可扩展的临床应用中的潜力提供了见解，并指出了未来改进的关键挑战。

发布时间: 3/28/2025

查看原文

FaceID-6M：一个大规模的开源FaceID自定义数据集

作者: Shuhe Wang, Xiaoya Li, Jiwei Li, Guoyin Wang, Xiaofei Sun, Bob Zhu, Han Qiu, Mo Yu, Shengjie Shen, Tianwei Zhang, Eduard Hovy

arXiv:2503.07091v3 公告类型: replace-cross 摘要：由于当前面部身份（FaceID）定制方法的数据驱动性质，所有最先进的模型都依赖于包含数百万高质量文本-图像对的大规模数据集进行训练。然而，这些数据集都不是公开可用的，这限制了透明度并阻碍了该领域的进一步发展。为了解决这个问题，我们在本文中收集并发布了FaceID-6M，这是第一个开源的大型FaceID数据集，包含了600万高质量的文本-图像对。FaceID-6M是从LAION-5B [Schuhmann2022LAION] 中筛选出来的，并经过严格的图像和文本筛选步骤以确保数据集的质量，包括分辨率筛选以保持高质量的图片和面孔，人脸筛选以删除缺乏人类面孔的图片，以及基于关键字的策略保留包含与人类相关术语（如国籍、职业和姓名）的描述。通过这些清洁过程，FaceID-6M 提供了一个高质量的数据集，用于训练强大的FaceID定制模型，通过提供一个开放的资源供研究和开发使用，促进了该领域的进步。我们进行了广泛的实验，展示了FaceID-6M的有效性，证明了在我们的FaceID-6M数据集上训练的模型在性能上与目前可用的工业模型相当，甚至稍好。此外，为了支持并推进面部身份定制社区的研究，我们已将我们的代码、数据集和模型完全公开。我们的代码、模型和数据集可在以下链接获取：https://github.com/ShuheSH/FaceID-6M。

发布时间: 3/28/2025

查看原文

基于深度切分的图嵌入与聚类

作者: Zhiyuan Ning, Zaitian Wang, Ran Zhang, Ping Xu, Kunpeng Liu, Pengyang Wang, Wei Ju, Pengfei Wang, Yuanchun Zhou, Erik Cambria, Chong Chen

arXiv:2503.06635v2 Announce Type: replace-cross 摘要：图聚类的目标是将图划分为不同的簇。最近兴起的深度图聚类方法大多基于图神经网络（GNN）。然而，现有的基于GNN的深度图聚类算法普遍存在表示崩溃的问题。我们归因于这样的问题主要有两个原因：(i) GNN模型的归纳偏置：GNN倾向于为邻近节点生成相似的表示。由于图中通常包含大量的跨簇链接，这种偏置会导致错误的消息传递，并导致有偏的聚类；(ii) 聚类引导的损失函数：大多数传统方法努力使所有样本都靠近预学习的聚类中心，这导致一个退化的解决方案，即将所有数据点分配到一个标签，从而使所有样本失去区分性。为了解决这些挑战，我们从图切分的角度研究图聚类，并提出了一种创新且非GNN为基础的Deep Cut启发的图嵌入和聚类框架，称为DCGC。该框架包括两个模块：(i) 切分启发的图编码；(ii) 通过最优传输进行自监督图聚类。对于编码模块，我们推导出一个切分启发的图嵌入目标，通过最小化其联合归一化切分来融合图结构和属性。对于聚类模块，我们利用最优传输理论获得聚类分配，这可以平衡“接近预学习聚类中心”的指导。通过上述两个定制设计，DCGC更适合图聚类任务，能有效缓解表示崩溃的问题，并取得更好的性能。我们进行了大量的实验，证明了与基准方法相比，我们的方法虽然简单但有效。

发布时间: 3/28/2025

查看原文

EuroBERT：欧洲语言扩展编码器

作者: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, Andr\'e Martins, Ayoub Hammal, Caio Corro, C\'eline Hudelot, Emmanuel Malherbe, Etienne Malaboeuf, Fanny Jourdan, Gabriel Hautreux, Jo\~ao Alves, Kevin El-Haddad, Manuel Faysse, Maxime Peyrard, Nuno M. Guerreiro, Patrick Fernandes, Ricardo Rei, Pierre Colombo

arXiv:2503.05500v2 通知类型: 替换-交叉摘要: 传统上，用于检索、回归和分类的一般多语言向量表示是从双向编码器模型中获得的。尽管它们具有广泛的适用性，但编码器最近被生成的解码器模型的发展所超越。然而，推动这一进展的许多创新并不天然地与解码器相关。在本文中，我们从这些进展的角度重新审视了多语言编码器的发展，并介绍了EuroBERT，这是一个涵盖欧洲和广泛使用的全球语言的多语言编码器系列。我们的模型在从多语言能力到数学和编程的广泛任务中表现出色，并能够原生支持多达8,192个标记的序列。我们还探讨了EuroBERT的设计决策，提供了关于我们的数据集构成和训练管道的见解。我们已公开发布了EuroBERT模型，包括中间训练检查点以及我们的训练框架。

发布时间: 3/28/2025

查看原文

重新思考视频分词：一种条件扩散基于的方法

作者: Nianzu Yang, Pandeng Li, Liming Zhao, Yang Li, Chen-Wei Xie, Yehui Tang, Xudong Lu, Zhihang Liu, Yun Zheng, Yu Liu, Junchi Yan

arXiv:2503.03708v3 通知类型: 交叉替换摘要: 目前的视频分词器通常使用传统的变分自编码器（VAE）架构进行视频压缩和重构。然而，为了实现良好的性能，其训练过程往往依赖于超越基本重构损失和KL正则化的复杂多阶段训练技巧。在这其中，最具挑战性的部分就是在最终阶段使用附加生成对抗网络（GANs）进行对抗训练的精确调优，这可能会妨碍稳定的收敛。与GANs相比，扩散模型提供了更稳定的训练过程，并能生成更高的质量结果。受这些优势的启发，我们提出了一种新颖的基于条件因果扩散的视频分词器CDT，它用条件因果扩散模型替代了基于GAN的解码器。编码器将时空信息压缩为紧凑的潜在变量，而解码器则通过反向扩散过程在这些潜在变量的条件下重构视频。在推理过程中，我们引入了特征缓存机制以生成任意长度的视频同时保持时间连贯性，并采用采样加速技术以提高效率。仅使用基本的MSE扩散损失作为重构损失，以及从零开始训练的KL项和LPIPS感知损失，广泛的实验证明，CDT仅通过单步采样就能在视频重构任务中实现最先进的性能。即使CDT的简化版本（3倍推理速度提升）也能与顶级基线相媲美。此外，使用CDT训练的潜在视频生成模型也表现出优秀的效果。相关源代码和预训练权重可在https://github.com/ali-vilab/CDT获取。

发布时间: 3/28/2025

查看原文

Starjob: 由大规模语言模型驱动的车间调度数据集

作者: Henrik Abgaryan, Tristan Cazenave, Ararat Harutyunyan

arXiv:2503.01877v2 宣告类型: 替换-交叉摘要：大规模语言模型（LLMs）已经在各个领域展示了惊人的能力，但它们在解决组合优化问题方面的潜力仍然 largely unexplored。在本论文中，我们研究了LLMs在作业车间调度问题（JSSP）中的适用性，这是一个组合优化的经典难题，需要对任务进行高效的机器分配以最小化完工时间。为此，我们介绍了 Starjob，这是首个专门为训练LLMs设计的监督数据集，包含130,000个实例。利用这个数据集，我们使用LoRA方法对经过8位量化处理的LLaMA 8B模型进行微调，以开发端到端的调度方法。在标准基准上的评估结果表明，所提出基于LLM的方法不仅超越了传统的优先级调度规则（PDRs），还超过了最先进的神经方法如L2D，在DMU基准上的平均改进率为15.36%，在Taillard基准上的改进率为7.85%。这些结果突显了LLMs在解决组合优化问题方面未充分利用的潜力，为未来在这个领域的进步铺平了道路。

发布时间: 3/28/2025

查看原文

基于M-LLM的视频帧选择以实现高效的视频理解

作者: Kai Hu, Feng Gao, Xiaohan Nie, Peng Zhou, Son Tran, Tal Neiman, Lingyun Wang, Mubarak Shah, Raffay Hamid, Bing Yin, Trishul Chilimbi

arXiv:2502.19680v2 宣告类型: replace-cross 摘要：近期多模态大规模语言模型（M-LLMs）在视频推理方面取得了令人鼓舞的结果。流行的多模态大规模语言模型（M-LLM）框架通常采用简单的均匀采样方法来减少输入M-LLM的视频帧数量，尤其是在长上下文视频的情况下。然而，这可能会在视频的某些时间段丢失关键的上下文信息，使得下游M-LLM无法获得足够的视觉信息来回答问题。为了解决这一问题，我们提出了一种基于轻量级M-LLM的帧选择方法，该方法能够自适应地选择与用户查询更相关的帧。为了训练提出的帧选择器，我们引入了两种监督信号：（i）空间信号，通过对M-LLM提示单帧的重要性评分；（ii）时间信号，在此信号中，通过提示大规模语言模型（LLM）使用所有候选帧的字幕来选择多个帧。然后，所选择的帧由一个冻结的下游视频M-LLM进行视觉推理和问题回答。实验结果表明，提出的M-LLM视频帧选择器在中等（ActivityNet，NExT-QA）和长（EgoSchema，LongVideoBench）上下文视频问答基准测试中，提高了各种下游视频大规模语言模型（视频-LLM）的性能。

发布时间: 3/28/2025

查看原文

TSKANMixer: 带有MLP-Mixer模型的柯尔莫哥洛夫-阿诺尔德网络时间序列预测

作者: Young-Chae Hong, Bei Xiao, Yangho Chen

arXiv:2502.18410v2 Announce Type: 替换交叉摘要：时间序列预测长期以来一直是经济学、能源、医疗保健和交通管理等多个领域的研究焦点。近年来，研究工作引入了时间序列模型的新架构，例如时间序列混合器（TSMixer），它利用多层感知机（MLPs）通过有效地捕捉数据中的空间和时间依赖性来提高预测准确性。在这篇论文中，我们通过将Kolmogorov-Arnold 网络（KANs）层引入TSMixer，研究了KANs在时间序列预测中的能力（TSKANMixer）。实验结果表明，在多个数据集上，TSKANMixer 能够在原始 TSMixer 的基础上提高预测准确性，并且与其他时间序列方法相比，其性能名列前茅。我们的结果显示，KANs 是提高时间序列预测性能的有前途的替代方案，可用于替换或扩展传统的MLPs。

发布时间: 3/28/2025

查看原文