arXiv 论文列表

作者: Ramteja Sajja, Yusuf Sermet, Ibrahim Demir

arXiv:2505.04916v1 声明类型: cross 摘要: 近期人工智能的发展推动了智能教育工具的应用，然而，许多语义检索系统仍不适合学术内容的独特语言和结构特征。本研究提出了两种针对教育问答进行微调的开源嵌入模型，特别是在课程大纲的背景下。通过结合手动筛选和大型语言模型（LLM）辅助的生成，构建了一个包含3,197个句子配对的合成数据集，涵盖同义术语、改写问题以及隐含显性映射。评估了两种训练策略：（1）使用多重否定排名损失（MNRL）进行微调的基线模型，以及（2）结合MNRL与余弦相似度损失（CosineSimilarityLoss）的双损失模型，以提高语义排名和相似度校准。在28所大学的课程大纲上进行了评估，使用了一组固定的语言问题，分类为课程信息、教职工信息和教学助理信息。结果表明，两种微调模型均优于开放源代码的基线模型，包括all-MiniLM-L6-v2和multi-qa-MiniLM-L6-cos-v1，并且双损失模型在与高性能的专有嵌入模型（如OpenAI的text-embedding-3系列）进行比较时缩小了性能差距。本文贡献了可重用、领域对齐的嵌入模型，并提供了可复制的教育语义检索框架，支持下游应用如学术聊天机器人、检索增强生成（RAG）系统和学习管理系统（LMS）集成。

发布时间: 5/9/2025

查看原文

基于时空提示：以关键帧为导向的零样本时空推理与即用型多模态大型语言模型

作者: Shun Taguchi, Hideki Deguchi, Takumi Hamazaki, Hiroyuki Sakai

arXiv:2505.04911v1 宣告类型: cross 摘要: 本研究介绍了SpatialPrompting，这是一个新颖的框架，利用现成的多模态大语言模型的新兴推理能力，在三维（3D）环境中实现零样本空间推理。与现有方法依赖于昂贵的3D特定微调和专门的3D输入（如点云或体素特征）不同，SpatialPrompting 使用基于关键帧的提示生成策略。该框架使用诸如视觉-语言相似性、马氏距离、视场和图像锐度等指标，从图像序列中选择多样且信息丰富的关键帧，然后将其与相应的相机姿态数据结合，以有效地抽象空间关系并推断复杂的3D结构。所提出的框架不仅建立了一种利用直观的视觉和位置线索进行灵活空间推理的新范式，而且在ScanQA和SQA3D等基准数据集的各种指标上实现了最先进的零样本性能。所提出的方法有效地消除了对专门3D输入和微调的需要，提供了一种与传统方法相比更简单且更具可扩展性的替代方案。

发布时间: 5/9/2025

查看原文

有限宽度多层神经网络精确梯度下降训练动力学

作者: Qiyang Han, Masaaki Imaizumi

arXiv:2505.04898v1 宣告类型: cross 摘要: 在本文中，我们提供了在有限宽度比例状态下的一般多层神经网络在标准单一索引回归模型下梯度下降迭代的首个精确分布特征。在样本大小和特征维度呈比例增长而网络宽度和深度保持有界的情况下，我们的非渐近态演化理论捕捉了一层权重的高斯波动和深层权重的集中趋势，并且适用于非高斯特征。我们的理论在几个关键方面不同于现有的神经 tangent 核(NTK)、均场(MF)理论和张量程序(TP)。首先，我们的理论在有限宽度范围内运作，而现有的这些理论本质上是无限宽度的。其次，我们的理论允许权重从单独的初始化演变，超越了懒惰训练阶段，而 NTK 和 MF 或者固定在初始化上，或者对初始化只有弱敏感性，TP 依赖于特殊初始化方案。第三，我们的理论不仅在一致收敛范围内，而且在一般多层神经网络中对训练和泛化误差进行特征描述，而现有的理论几乎仅在两层设置中研究泛化问题。作为一种统计应用，我们展示了 vanilla 梯度下降可以通过增加辅助方法在每次迭代中提供一致的泛化误差估计，这些估计可以用于指导早期停止和超参数调整。作为一种进一步的理论推论，我们展示了即使模型存在误指定，梯度下降学习的模型仍然保留了单一索引函数的结构，其有效信号由真实信号和初始化的线性组合确定。

发布时间: 5/9/2025

查看原文

通信驱动聚类：单细胞表示学习的变分框架

作者: Cong Qi, Yeqing Chen, Jie Zhang, Wei Zhi

arXiv:2505.04891v1 公告类型：交叉摘要：单细胞RNA测序（scRNA-seq）揭示了复杂的细胞异质性，但最近的研究强调，理解生物功能还需要建模细胞间通讯（Cell-Cell Communication, CCC），即由配体-受体对介导的信号传递相互作用，这些相互作用协调细胞行为。诸如CellChat之类的工具已经证明，CCC在细胞分化、组织再生和免疫反应等过程中起着关键作用，而转录组数据本身就包含了丰富的细胞间信号传递信息。我们提出了CCCVAE，这是一种新颖的变分自编码器框架，该框架将CCC信号整合到单细胞表示学习中。通过利用从配体-受体相互作用中衍生出的通信感知核和稀疏高斯过程，CCCVAE 将生物学先验知识编码到潜在空间中。与传统的自编码器（VAEs）独立处理每个细胞的方法不同，CCCVAE 鼓励潜在嵌入反映转录相似性和细胞间信号传递的上下文。在四个scRNA-seq数据集上的实验结果表明，CCCVAE 提高了聚类性能，其评估分数高于标准的VAE基线。本研究展示了将生物学先验知识嵌入到深度生成模型中以进行无监督单细胞分析的价值。

发布时间: 5/9/2025

查看原文

跨分支正交性以提高面部深伪检测的泛化能力

作者: Tharindu Fernando, Clinton Fookes, Sridha Sridharan, Simon Denman

arXiv:2505.04888v1 交叉类型摘要：生成AI技术的显著进步催生了一系列前所未有的真实度深伪类别，这使得深伪内容日益成为执法机构和普通公众的困扰。特别是我们注意到，由于面部深伪内容引起的多媒体内容混乱、欺诈和信心丧失的现象引起了人们的关注，现有的深伪检测器难以跟上生成深伪技术快速进步的节奏。这主要是因为它们依赖特定的伪造特征，限制了它们的泛化能力和检测新型深伪类型的能力。为应对恶意面部深伪内容的传播，本文提出了一种新策略，该策略结合了粗到细的空间信息、语义信息及其交互，同时确保特征的独特性和降低模型特征的冗余。提出了一种基于特征正交性的分离策略，确保分支级和跨分支特征的分离，这允许我们在不影响特征空间的复杂性和保持泛化的情况下整合多个特征向量。在三个公开基准数据集：FaceForensics++、Celeb-DF 和 Deepfake Detection Challenge (DFDC) 上进行全面实验表明，在跨数据集评估设置中，这些设计选择使提出的方法在 Celeb-DF 数据集上比当前最佳方法高出 5%，在 DFDC 数据集上高出 7%。

发布时间: 5/9/2025

查看原文

基于问题库的方法： fine-grained 法律知识检索面向普通公众

作者: Mingruo Yuan, Ben Kao, Tien-Hsuan Wu

arXiv:2505.04883v1 通知类型: 交叉摘要: 普通公众获取法律知识是一个具有挑战性的问题，由于专业知识的技术性和民众在这方面的基本理解不足。传统的信息检索技术假设用户能够提出简洁而精确的查询以有效检索文档。然而，在实践中，高级技术内容与未受训练的用户之间的巨大差距使得法律知识的检索变得非常困难。我们提出了一种名为QBR的方法论，使用知识库（QB）作为有效桥梁，以弥补知识差距。我们展示了如何使用QB来生成训练样本，从而增强文档中知识单元的嵌入，进而实现有效的细粒度知识检索。我们通过实验讨论并评估了QBR相对于传统方法的各种优势，包括更准确、更高效的文档检索，更好的检索结果理解，以及非常有效的细粒度知识检索。我们还展示了一些案例研究，并表明QBR通过帮助公民解决日常生活中的法律问题，实现了社会影响。

发布时间: 5/9/2025

查看原文

ConCISE：在逐步高效推理中基于信心的压缩

作者: Ziqing Qiao, Yongheng Deng, Jiali Zeng, Dong Wang, Lai Wei, Fandong Meng, Jie Zhou, Ju Ren, Yaoxue Zhang

arXiv:2505.04881v1 宣告类型: cross 摘要: 大型推理模型（LRMs）通过链式思考（CoT）提示在复杂推理任务中表现出色，但往往会因冗余内容导致输出冗长，增加了计算负担，并损害了用户体验。现有的压缩方法要么在事后进行剪枝操作，这会破坏推理的一致性，要么依赖于基于采样的选择，这在生成过程中无法有效干预。在本文中，我们引入了一种信心导向的视角来解释LRMs中冗余反思的产生，识别出两个关键模式：信心赤字，模型由于内部信心较低而重新考虑正确的步骤；以及终止延迟，即使在获得信心十足的答案后仍继续推理。基于这一分析，我们提出了ConCISE（信心导向的逐步高效推理中的压缩），这是一个通过在推理过程中强化模型的信心来简化推理链的框架，从而避免生成冗余的反思步骤。它集成了信心注入以稳定中间步骤，并在信心足够时提前终止推理。广泛的实验表明，在ConCISE生成的数据上微调LRMs可以显著减少输出长度，根据SimPO下的长度减少最多可达约50%的同时，保持高任务准确性。ConCISE在多个推理基准测试中始终优于现有基准。

发布时间: 5/9/2025

查看原文

GroverGPT-2：通过链式思考推理和量子本征分词模拟Grover算法

作者: Min Chen, Jinglei Cheng, Pingzhi Li, Haoran Wang, Tianlong Chen, Junyu Liu

arXiv:2505.04880v1 Announce Type: cross 摘要：量子计算在特定任务上比经典计算提供了理论上的优势，但实用性的量子优势边界仍然是一个开放的问题。为了探究这一边界，理解经典机器能否学习和模拟量子算法至关重要。近期大规模语言模型（LLMs）的进展展示了强大的推理能力，推动了其在这项挑战中的潜力探究。在本文中，我们引入了GroverGPT-2，这是一种基于LLM的方法，利用链式思考（CoT）推理和量子本征标记化来模拟Grover算法。在前作的基础上，GroverGPT-2可以直接从量子电路表示中进行模拟，并生成逻辑结构明确且可解释的输出。我们的结果表明，GroverGPT-2能够通过高效的量子本征标记处理来学习和内化量子电路逻辑，提供了直接证据，证明了像LLM这样的经典模型能够捕捉量子算法的结构。此外，GroverGPT-2将电路数据与自然语言交织输出，将显式推理嵌入到模拟中。这种双重能力使GroverGPT-2成为推进机器对量子算法的理解和建模量子电路逻辑的原型。我们还识别了GroverGPT-2随量子比特数量增加的实证缩放律，这为可扩展的经典模拟提供了一条道路。这些发现开启了探索经典模拟极限的新方向，增强了量子教育和研究，并为未来量子计算的基础模型奠定了基础。

发布时间: 5/9/2025

查看原文

从损失landscape学习：通过自适应锐化感知梯度对齐实现的可泛化混合精度量化

作者: Lianbo Ma, Jianlun Ma, Yuee Zhou, Guoyang Xie, Qiang He, Zhichao Lu

arXiv:2505.04877v1 工作类型: cross 摘要: 混合精度量化（MPQ）已成为通过确定每层的最佳位宽来优化神经网络的一种必不可少的技术。然而，现有的MPQ方法面临一个重大挑战：它们需要在大规模数据集上进行昂贵的量化策略搜索。为了解决这一问题，我们提出了一种新的方法，首先在小数据集上搜索量化策略，然后将其泛化到大规模数据集。这种新方法简化了过程，消除了大规模量化细调的需要，并只需对模型权重进行调整。我们的方法具有三个关键技术：用于增强量化泛化的尖锐度感知最小化、隐式梯度方向对齐以处理不同优化目标之间的梯度冲突，以及自适应扰动半径以加速优化。理论分析和实验结果均验证了我们的方法。使用CIFAR10数据集（仅为ImageNet训练数据的0.5%大小）进行MPQ策略搜索，在ImageNet上实现了相当的精度，同时计算成本显著降低，并且相比基线方法，效率提高了高达150%。

发布时间: 5/9/2025

查看原文

联邦学习在网络物理系统中的应用：综合性综述

作者: Minh K. Quan, Pubudu N. Pathirana, Mayuri Wijayasundara, Sujeeva Setunge, Dinh C. Nguyen, Christopher G. Brinton, David J. Love, H. Vincent Poor

arXiv:2505.04873v1 交叉公告类型: cross 摘要：将机器学习（ML）集成到智能物理系统（CPS）中是一项复杂的任务，因为这涉及到实时决策、安全性、可靠性、设备异构性和数据隐私方面的挑战。此外，还存在需要解决的开放研究问题，以便全面实现ML在CPS中的潜力。作为分布式的ML方法，联邦学习（FL）近年来变得越来越受欢迎。它允许使用分散的数据来源来训练模型。该方法在CPS领域越来越受欢迎，因为它将计算机、通信和物理过程整合在一起。因此，本文的目的是对近年来FL-CPS的发展进行全面分析，包括近年来开发的各种应用领域、系统拓扑和算法。论文首先讨论了FL和CPS的最新进展及其整合。然后，文章进一步探讨了FL在CPS中的应用与物联网（IoT）中的应用，以显示其联系和区别。此外，文章详细审查了FL在关键CPS应用中的使用，例如智能交通系统、网络安全服务、智能城市和智能健康解决方案。研究还包括了各种FL-CPS实施的关键见解和经验教训。论文的最后一部分探讨了重大关切，并在这一快速变化和动态的时代提出了进一步研究的途径。

发布时间: 5/9/2025

查看原文