arXiv 论文列表

作者: Yaomin Shen, Xiaojian Lin, Wei Fan

arXiv:2503.19474v1 宣告类型: cross 摘要：在多模态意图识别（MIR）领域，目标是通过整合多种模态（如语言文本、身体手势和音调）来识别人类意图。然而，现有方法在充分捕捉不同模态之间的内在联系以及忽略相应意图的语义表示方面面临困难。为了解决这些问题，我们提出了一种基于锚的多模态嵌入与语义同步（A-MESS）框架。首先，我们设计了一个基于锚的多模态嵌入（A-ME）模块，该模块采用基于锚的嵌入融合机制来整合多模态输入。此外，我们开发了一种基于三重对比学习管道的语义同步（SS）策略，通过将多模态表示与大型语言模型生成的标签描述进行同步来优化过程。全面的实验表明，我们的A-MESS实现了最新技术水平，并为多模态表示及其下游任务提供了重要的见解。

发布时间: 3/26/2025

查看原文

增强小语言模型在软提示调优下的跨语言通用零-shot 分类能力

作者: Fred Philippy, Siwen Guo, Cedric Lothritz, Jacques Klein, Tegawend\'e F. Bissyand\'e

arXiv:2503.19469v1 声明类型: cross 摘要：在自然语言处理（NLP）中，零样本分类（ZSC）已成为使模型能够在训练过程中未见过的类别中对文本进行分类的关键技术，特别是在资源有限的语言和领域中，标注数据稀缺时尤为重要。虽然预训练语言模型（PLMs）在ZSC中显示出潜力，但它们通常依赖于大型训练数据集或外部知识，这限制了它们在多语言和资源有限场景中的适用性。最近利用自然语言提示的方法减少了对大型训练数据集的依赖，但在有效地结合相关分类任务中可用的标注数据方面遇到困难，尤其是在这些数据集来自不同语言或分布时。此外，现有的基于提示的方法通常依赖于特定语言的手动构造提示，这限制了它们在跨语言设置中的适应性和有效性。为了解决这些挑战，我们介绍了RoSPrompt，这是一种轻量级且数据高效的软提示训练方法，该方法可以增强跨语言ZSC，并确保在数据分布转移时具有稳健的泛化能力。RoSPrompt旨在为小型多语言PLMs设计，使它们能够在资源有限的环境中利用高资源语言提高性能，而无需进行大量微调或高计算成本。我们将在涵盖106种语言的数据集上对多种多语言PLMs进行评估，展示了其强大的跨语言迁移性能和在未见过的类别的稳健泛化能力。

发布时间: 3/26/2025

查看原文

以数据为中心的联邦图学习与大型语言模型

作者: Bo Yan, Zhongjian Zhang, Huabin Sun, Mengmei Zhang, Yang Cao, Chuan Shi

arXiv:2503.19455v1 交叉公告类型: 摘要：在联邦图学习（FGL）中，由于隐私问题，一个完整的图被分割成多个子图存储在每个客户端中，所有客户端通过仅传输模型参数来共同训练一个全局图模型。FGL的一个痛点是异质性问题，其中节点或结构在客户端之间表现为非IID属性（例如，不同的节点标签分布），这严重削弱了FGL的收敛性和性能。为了解决这个问题，现有的努力集中在模型层面的设计策略上，即设计模型以提取共同知识来缓解异质性。然而，这些模型层面的策略无法从根本上解决异质性问题，因为在转移到其他任务时，模型需要从头开始设计。受到大型语言模型（LLMs）已取得显著成功这一事实的启发，我们旨在利用LLMs全面理解和增强本地带有文本属性的图，以在数据层面解决数据异质性问题。在本文中，我们提出了一种通用框架LLM4FGL，理论地将LLM在FGL中的任务分解为两个子任务。具体而言，对于每个客户端，首先利用LLM生成缺失的邻居，然后推断生成节点和原始节点之间的连接。为了提高生成节点的质量，我们设计了一种新颖的联邦生成和反演机制，无需修改LLM的参数，只需依靠所有客户端的集体反馈即可。生成邻居后，所有客户端使用预训练的边缘预测器来推断缺失的边。此外，我们的框架可以无缝集成到现有的FGL方法中。在三个真实数据集上的实验表明，我们的方法相对于先进的基线方法具有优越性。

发布时间: 3/26/2025

查看原文

VecTrans：高性能CPU上更好的自动向量化LLM转换框架

作者: Zhongchun Zheng, Long Cheng, Lu Li, Rodrigo C. O. Rocha, Tianyi Liu, Wei Wei, Xianwei Zhang, Yaoqing Gao

arXiv:2503.19449v1 宣传类型：交叉摘要：大型语言模型（LLMs）在代码生成方面展现了巨大的能力，但在编译器优化方面的有效应用仍面临着诸多挑战，这些问题包括幻觉现象和缺乏特定领域的推理能力。向量化是一种提高代码性能的关键优化技术，但由于编译器难以识别复杂的代码模式，而这些模式通常需要大量的实证专业知识，因此常常失败。LLMs能够捕捉复杂的模式，从而为解决这一挑战提供了有前途的解决方案。本文提出了VecTrans，这是一种新颖的框架，利用LLMs来增强基于编译器的代码向量化。VecTrans首先利用编译器分析来识别潜在可向量化代码区域，然后利用LLMs重新整理这些区域，使其更易于编译器的自动向量化。为了确保语义正确性，VecTrans在中间表示（IR）级别上进一步整合了一种混合验证机制。通过上述努力，VecTrans结合了LLMs的适应性和编译器向量化的精确性，从而有效地开拓了向量化的机会。实验结果显示，在Clang、GCC和BiShengCompiler都未能向量化的50个TSVC函数中，VecTrans成功向量化了23个案例（46%），并实现了平均2.02倍的加速，大幅超过了现有最先进的性能。

发布时间: 3/26/2025

查看原文

DeCAP：面向去偏见的零样本问答大型语言模型上下文自适应提示生成

作者: Suyoung Bae, YunSeok Choi, Jee-Hyong Lee

arXiv:2503.19426v1 声明类型: cross 摘要：尽管大型语言模型（LLMs）在零样本问答（QA）方面表现出色，但在面对社会敏感问题时，它们往往会暴露其内部知识中存在的偏见，导致性能下降。现有的零样本方法效率高，但未能考虑上下文，从而无法防止偏见在答案中的传播。为了解决这个问题，我们提出了DeCAP，一种使用上下文自适应提示生成进行LLMs去偏的方法。DeCAP 利用问题含糊性检测，根据上下文采取适当的去偏措施，并利用中立答案指导生成抑制LLMs对上下文进行客观判断，从而最小化其内部知识中偏见的传播。我们在八种不同LLMs的各种实验中显示，DeCAP 达到了最先进的零样本去偏问答性能。这表明DeCAP 在提高LLMs在各种问答设置中的公平性和准确性方面具有有效性。

发布时间: 3/26/2025

查看原文

临床决策中症状因果性的量化：基于CausaLM的探索

作者: Mehul Shetty, Connor Jordan

arXiv:2503.19394v1 类别: cross 摘要：当前的机器学习方法在医学诊断中往往依赖症状与疾病之间的相关模式，当症状模棱两可或在多种状况下常见时，这可能会导致误诊。在这项工作中，我们超越相关性，研究关键症状（特别是“胸痛”）对诊断预测的因果影响。利用CausaLM框架，我们生成了一种假设目标概念被“遗忘”的文本表示方法，从而能够合理估计该概念对模型预测疾病分布的因果效应。通过采用基于文本表示的平均治疗效应（TReATE），我们量化了症状的存在与否如何影响模型的诊断结果，并将其与基于相关性的基准方法（如CONEXP）进行对比。我们的结果提供了对临床NLP模型决策行为的更深入洞察，并有可能指导更可信、可解释和基于因果关系的决策支持工具的发展，以应用于医学实践。

发布时间: 3/26/2025

查看原文

因果不变地理网络表示：面对特征和结构分布转移

作者: Yuhan Wang, Silu He, Qinyao Luo, Hongyuan Yuan, Ling Zhao, Jiawei Zhu, Haifeng Li

arXiv:2503.19382v1 Announce Type: cross 摘要：现有的方法通过基于独立同分布（i.i.d.）假设的深度图神经网络（GNNs）来学习地理网络表示。然而，地理数据的空间异质性和时间动态性使得移出分布（OOD）泛化问题尤为突出。后者的敏感性在于测试数据与训练数据之间的分布变化（特征变化和结构变化），这是OOD泛化问题的主要原因。不变性和背景表示之间由于选择偏差和环境影响而存在虚假相关性，使得模型更有可能学习背景表示。现有的方法主要关注由节点特征分布变化决定的背景表示变化，而忽略了异质和同质邻节点比例分布的变化，我们称之为结构性分布变化。我们提出了一种同时考虑特征分布变化和结构性分布变化的特征-结构混合不变表示学习（FSM-IRL）模型。为应对结构性分布变化，我们引入了一种基于因果注意力的采样方法，鼓励模型识别与标签或与目标节点更相似的具有强烈因果关系的节点。受希尔伯特-施密特独立性准则的启发，我们实施了一种重新加权策略，以最大化节点表示的正交性，从而减轻节点表示之间的虚假相关性，抑制背景表示的学习。我们的实验表明，FSM-IRL在地理和社会网络数据集的OOD场景中表现出强大的学习能力。

发布时间: 3/26/2025

查看原文

DeClotH: 单张图像中的可分解三维衣物和人体重建

作者: Hyeongjin Nam, Donghwan Kim, Jeongtaek Oh, Kyoung Mu Lee

arXiv:2503.19373v1 Announce Type: cross 摘要：大多数现有的单图三维衣着人体重建方法都将衣着人体视为单一对象，而不区分衣物和人体。为此，我们提出了一种名为DeClotH的方法，从单图中分别重建衣物和人体。由于衣物与人体之间的严重遮挡，这项任务尚未得到充分探索，使得准确推断几何结构和纹理变得极具挑战性。此外，尽管近期的三维人体重建方法利用文本到图像的扩散模型取得了令人印象深刻的成果，但直接将此类方法应用于此问题往往会提供错误的指导，特别是在重建三维衣物方面。为解决这些问题，我们提出了框架中的两个核心设计。首先，为缓解遮挡问题，我们利用衣物和人体的三维模板模型作为正则化手段，提供强几何先验，以防止遮挡导致的错误重建。其次，我们引入了一种专门设计的扩散模型来提供关于衣物外观的上下文信息，从而增强了三维衣物的重建。定性和定量实验表明，我们提出的方法在重建三维衣物和人体方面非常有效。更多定性结果可参见https://hygenie1228.github.io/DeClotH/。

发布时间: 3/26/2025

查看原文

流到学习：神经网络参数上的流匹配

作者: Daniel Saragih, Deyu Cao, Tejas Balaji, Ashwin Santhosh

arXiv:2503.19371v1 类型: cross 摘要: 基础语言模型在推理过程中通过上下文数据学习新概念展现了显著的能力。然而，对于图像而言，类似的工作进展滞后。为了解决这一挑战，我们提出了FLoWN，一种学习生成不同任务神经网络参数的流匹配模型。我们的方法在潜在空间上建模流，同时将过程以上下文数据为条件进行约束。实验验证了FLoWN满足了元学习模型的各种期望。此外，FLoWN在内部分布任务上与基线相当或超越基线，为分类器训练提供了更好的初始化，并在分布外的少量样本任务上表现出色，同时还具有 fine-tuning 机制以提升性能。

发布时间: 3/26/2025

查看原文

基于改进的注意力机制CNN-BiLSTM架构的高效物联网入侵检测

作者: Amna Naeem, Muazzam A. Khan, Nada Alasbali, Jawad Ahmad, Aizaz Ahmad Khattak, Muhammad Shahbaz Khan

arXiv:2503.19339v1 类型: cross 摘要：物联网(IoT)系统中不断增加的安全漏洞需要改进的威胁检测方法。本文提出了一种紧凑且高效的botnet攻击检测方法，该方法采用了一种结合了流量模式分析、时间支持学习和聚焦特征提取的集成方法。所提出的基于注意力的模型受益于混合CNN-BiLSTM架构，在利用N-BaIoT数据集检测botnet攻击时实现了99%的分类准确率，并在各种场景中保持了高精确度和召回率。通过关键参数，如Matthews相关系数和Cohen's kappa相关系数，进一步验证了所提出模型的性能。这些参数的接近理想的结果证明了所提出模型能够在实际应用场景和未见过的数据中准确且高效地检测botnet攻击的能力。所提出的模型证明是物联网网络应对新兴安全挑战的强大防御机制。

发布时间: 3/26/2025

查看原文