arXiv 论文列表

作者: Ziming Guo, Chao Ma, Yinggang Sun, Tiancheng Zhao, Guangyao Wang, Hai Huang

arXiv:2412.17867v2 公告类型: 替换-交叉摘要：大型语言模型（LLMs）的最新进展显著推进了文本到SQL系统的进展。然而，大多数基于LLM的方法往往仅限于SQL生成，忽视了真实世界对话查询的复杂性。这种忽视可能导致不可靠的回答，特别是在那些不能直接用SQL解答的模糊问题中。为了弥合这一差距，我们提出了MMSQL，这是一个全面的测试套件，旨在通过模拟具有多种问题类型和多轮问答交互的真实世界场景来评估LLMs的问题分类和SQL生成能力。借助MMSQL，我们评估了包括开源和闭源模型在内的流行LLM的性能，并确定了影响其在这种场景下性能的关键因素。此外，我们提出了一种基于LLM的多智能体框架，该框架使用专门的智能体来识别问题类型并确定合适的回答策略。我们的实验表明，这种方法显著增强了模型处理对话动态复杂性的能力，有效地应对用户查询的多样性和复杂性。我们的数据集和代码可在https://mcxiaoxiao.github.io/MMSQL公开获取。

发布时间: 4/4/2025

查看原文

重新审视模型合并中的权重平均方法

作者: Jiho Choi, Donggyun Kim, Chanhyuk Lee, Seunghoon Hong

arXiv:2412.12153v2 宣告类型: replace-cross 摘要: 模型合并旨在通过组合单独微调模型的参数来构建一个多任务学习器，而无需额外的训练。虽然一个直接的方法是跨任务平均模型参数，但这种方法往往会导致由于参数之间的相互干扰而导致性能不佳。在本文中，我们展示了有趣的结果，即权重平均隐式地诱导出以权重平均为中心的任务向量，并且应用这些中心化任务向量的低秩近似显著提高了合并性能。我们的分析表明，中心化任务向量有效地减少了任务之间的干扰，大多数任务特定的知识集中在前几个奇异向量中。我们的方法在不同任务数量和模型规模的视觉基准测试中表现出 robust 和可扩展的性能。此外，我们观察到，我们的方法在自然语言处理任务中也具有竞争力的性能。

发布时间: 4/4/2025

查看原文

动态空间能力训练for多模态语言模型

作者: Arijit Ray, Jiafei Duan, Ellis Brown, Reuben Tan, Dina Bashkirova, Rose Hendrix, Kiana Ehsani, Aniruddha Kembhavi, Bryan A. Plummer, Ranjay Krishna, Kuo-Hao Zeng, Kate Saenko

arXiv:2412.07755v2 通知类型: 替换-跨领域摘要：关于运动和空间的推理是多个现实世界应用所需的基本认知能力。尽管许多研究指出大型多模态语言模型（MLMs）在空间推理方面遇到困难，但它们仅专注于静态空间关系，而非运动和空间的动态意识，即关于主体和物体运动对空间关系的影响的推理。手动标注这些物体和摄像头的运动非常昂贵。因此，我们引入了SAT，一个包含静态和动态空间推理的数据集，共有175K个问题-答案（QA）对和20K个场景。此外，我们还利用真实世界的图像构建了一个小型但具有挑战性的动态空间测试集（包含150个图像-QA对）。利用我们提供的SAT数据集和6个现有的静态空间基准，我们系统地探讨了提高静态和动态空间意识的因素。我们的结果显示，模拟在向MLMs传授空间能力方面表现出乎意料的效用，这些能力可以应用于真实图像。我们展示了在模拟中完美标注比现有实时图像伪标注方法更有效。例如，SAT训练在多个空间基准上，包括我们的实时图像动态测试集和长视频的空间推理上，使一个LLaVA-13B模型平均提高了11%，一个LLaVA-Video-7B模型平均提高了8%，甚至超过了某些大型专有模型。虽然通过合成训练数据可以在静态关系推理方面取得进展，但仍需在动态推理方面有很大改进空间。

发布时间: 4/4/2025

查看原文

ArtFormer: 可控生成多样化 articulated 三维物体

作者: Jiayi Su, Youhe Feng, Zheng Li, Jinhua Song, Yangfan He, Botao Ren, Botian Xu

arXiv:2412.07237v3 通告类型: replace-cross 摘要：本文提出了一种新的框架，用于建模和条件生成3D articulated对象。现有的方法常常受到灵活性与质量之间权衡的困扰，因此通常局限于使用预定义的结构或从静态数据集中检索形状。为了解决这些挑战，我们将articulated对象参数化为一组标记的树，并使用变换器生成对象的高级几何代码及其运动关系。随后，使用符号距离函数（SDF）形状先验进一步解码每个子部分的几何形状，从而便于高质量3D形状的合成。我们的方法可以生成具有高质量几何形状且部件数量可变的多样化对象。针对从文本描述进行条件生成的全面实验表明了我们方法的有效性和灵活性。

发布时间: 4/4/2025

查看原文

基于坐标块重建的高效长视频分词

作者: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

arXiv:2411.14762v4 通知类型: replace-cross 摘要：在训练能够处理长视频的视觉模型时，高效的视频分词仍然是一个挑战。一个有希望的方向是开发一种能够编码长视频片段的分词器，因为它可以让分词器更好地利用视频的时序一致性来进行分词。然而，将现有的分词器训练在长视频上通常会带来巨大的训练成本，因为它们一次需要重构所有的帧。在本文中，我们介绍了一种名为CoordTok的视频分词器，它通过利用3D生成模型最近的发展，从基于坐标的表示学习到输入视频对应切片的映射。特别是，CoordTok将视频编码为因子化的三平面表示，并重构与随机采样的$(x, y, t)$坐标对应的切片。这使得可以直接从长视频训练大型分词器模型，而不需要过度的训练资源。我们的实验表明，CoordTok可以大幅减少编码长视频片段的令牌数量。例如，CoordTok可以将一个分辨率为128×128的128帧视频编码为1280个令牌，而基线方法需要6144或8192个令牌才能达到相似的重构质量。我们进一步展示了这种高效的视频分词使能够一次性生成128帧的扩散变压器的内存高效训练成为可能。

发布时间: 4/4/2025

查看原文

塔消除偏见：基于塔性质的一种新型不公平性移除方法

作者: Norman Matloff, Aditya Mittal

arXiv:2411.08297v2 宣布类型: replace-cross 摘要：决策过程越来越依赖于复杂的机器学习工具，这引发了关于其预测对敏感群体公正性的关键关切。商业“黑盒”模型的广泛采用需要仔细考虑其对消费者的法律和伦理影响。当用户与这样的黑盒模型交互时，一个关键挑战出现了：如何减轻或移除敏感属性（如种族或性别）在其预测中的影响？我们提出了 towerDebias (tDB)，一种新颖的后处理方法，旨在减少黑盒模型预测中敏感属性的影响。我们的 tDB 方法利用概率论中的塔特性，可以在不需要重新训练原始模型的情况下改善预测公正性。这种方法极为灵活，因为它不需要了解原始算法的内部结构，并且可以适应多种应用。我们提出了 tDB 的正式公平性改进定理，并通过多个真实世界数据集展示了其在回归和分类任务中的有效性。

发布时间: 4/4/2025

查看原文

ROBIN: 耐攻击且不可见的扩散模型水印优化方法

作者: Huayang Huang, Yu Wu, Qian Wang

arXiv:2411.03862v2 宣吿类型: replace-cross 摘要：水印生成内容是一种至关重要的工具，用于认证、所有权保护以及潜在误用的缓解。现有的水印方法面临着在鲁棒性和隐蔽性之间取得平衡的挑战。它们通过限制水印的强度来进行被动隐蔽，从而降低鲁棒性，从而在视觉上不可见地注入水印。在这篇论文中，我们提出明示地引入水印隐藏过程以积极地实现隐蔽，从而允许嵌入更强的水印。具体来说，我们在中间扩散状态下植入鲁棒水印，然后引导模型在最终生成的图像中隐藏水印。我们采用对抗优化算法为每个水印生成最佳的隐藏提示引导信号。提示嵌入被优化以最小化生成图像中的伪像，而水印被优化以实现最大强度。可以通过逆转生成过程来验证水印。在各种扩散模型上的实验表明，即使在显著图像篡改下，水印仍然可以验证，并且在隐形性方面优于其他最先进的鲁棒水印方法。代码可以在 https://github.com/Hannah1102/ROBIN 获取。

发布时间: 4/4/2025

查看原文

通过LoRA LMM赋能视觉应用程序

作者: Liang Mi, Weijun Wang, Wenming Tu, Qingfeng He, Rui Kong, Xinyu Fang, Yazhu Dong, Yikang Zhang, Yunchun Li, Meng Li, Haipeng Dai, Guihai Chen, Yunxin Liu

arXiv:2411.00915v5 宣告类型: replace-cross 摘要：具有坚实语言和推理能力的大规模多模态模型（LMMs）在各种复杂的视觉任务中取得了显著进展。低秩适应（LoRA）提供了一种有望将外部知识集成到LMMs中的方法，弥补了他们在特定领域任务方面的局限性。然而，现有的LoRA模型服务计算成本极高，导致异常高的延迟。在本文中，我们提出了一种端到端的解决方案，通过LoRA LMMs增强多样化的视觉任务并丰富视觉应用程序。我们的系统VaLoRA通过1)一种基于准确性的LoRA适配器生成方法，生成含有丰富特定领域知识的LoRA适配器以满足特定应用程序的准确度要求；2)一种自适应分块的LoRA适配器批量操作器，高效地计算并发异构LoRA适配器；3)一种灵活的LoRA适配器协调机制，管理和处理应用程序请求与LoRA适配器，以实现最低的平均响应延迟。我们在三个LMMs上的五个流行视觉任务上原型实现VaLoRA。实验结果表明，与原始的LMMs相比，VaLoRA可以在24-62%的准确度上有所提高，与最先进的LoRA模型服务系统相比，可以将延迟降低20-89%。

发布时间: 4/4/2025

查看原文

FedMSE：物联网网络入侵检测的半监督联邦学习方法

作者: Van Tuan Nguyen, Razvan Beuran

arXiv:2410.14121v2 宣告类型: replace-cross 摘要：本文提出了一种新的联邦学习方法，用于提高物联网网络入侵检测。随着物联网的发展，网络攻击面扩大，这使得传统的集中式机器学习方法由于数据可用性、计算资源、传输成本以及尤其是隐私保护方面的担忧而变得不足。为此，开发了一种半监督的联邦学习模型，结合了收缩自编码器和质心一类分类器（SAE-CEN），以克服这些问题。该方法通过有效地表示正常网络数据并在去中心化策略中准确识别异常，提高了入侵检测性能。此外，还引入了一种基于均方误差的聚合算法（MSEAvg），通过优先考虑更准确的局部模型来提高全局模型的性能。基于使用N-BaIoT数据集和狄利克雷分布的各种设置进行的实验表明，在检测精度方面从93.98±2.90提高到97.30±0.49，在训练过程中只需要50%的网关参与即可降低学习成本，并且在大规模网络中具有鲁棒性。

发布时间: 4/4/2025

查看原文

NSSI-Net：半监督框架中基于高维EEG的多概念生成对抗网络用于非自杀性自我伤害检测

作者: Zhen Liang, Weishan Ye, Qile Liu, Li Zhang, Gan Huang, Yongjie Zhou

arXiv:2410.12159v3 宣布类型: replace-cross 摘要：自残（NSSI）是对青少年身心健康的重大威胁，显著增加了自杀风险，并引起了广泛的社会关注。脑电图（EEG）作为一种识别脑部疾病的客观工具，具有巨大潜力。然而，从高维EEG数据中提取有意义和可靠的特征，特别是通过结合时空脑动态来生成信息性表示，仍然是一个主要挑战。在本研究中，我们引入了先进的半监督对抗网络NSSI-Net，以有效地建模与NSSI相关的EEG特征。NSSI-Net由两个关键模块组成：时空特征提取模块和多概念鉴别器。在时空特征提取模块中，我们使用了集成的二维卷积神经网络（2D-CNN）和双向门控递归单元（BiGRU），以捕捉EEG数据中的时空动态。在多概念鉴别器模块中，我们全面探索了信号、性别、领域和疾病水平，以提取有意义的EEG特征，考虑的是在多样性人群中的个体、人口统计学、疾病变异。基于自收集的NSSI数据（n=114），该模型的有效性和可靠性得到了验证，与现有的机器学习和深度学习方法相比，性能提高了5.44%。该研究表明，NSSI-Net有助于理解并早期诊断抑郁青少年的NSSI，从而实现及时干预。源代码可在https://github.com/Vesan-yws/NSSINet获得。

发布时间: 4/4/2025

查看原文