arXiv 论文列表

作者: Hanyu Liu, Siyao Li, Ying Yu, Yixuan Jiang, Hang Xiao, Jingxi Long, Haotian Tang

arXiv:2503.21843v1 交叉类型摘要：人体活动识别（HAR）是众多以人类为中心的智能应用的基础技术。尽管已经利用深度学习方法来加速特征提取，但多模态数据混叠、活动异构性和复杂模型部署等问题仍主要未得到有效解决。本文旨在解决传感器基础人体活动识别中的多模态数据混叠、活动异构性和复杂模型部署等问题。我们提出了一种时空注意力模态分解对齐融合策略，以应对传感器数据的混合分布问题。通过跨模态的空间-时间解纠缠表示捕捉活动的关键判别特征，并结合梯度调制以缓解数据异构性。此外，我们还构建了一个可穿戴部署模拟系统。我们在大量的公开数据集上进行了实验，证明了该模型的有效性。

发布时间: 3/31/2025

查看原文

M-DocSum: LVLMs 真正理解文档中交错的图像-文本吗？

作者: Haolong Yan, Kaijun Tan, Yeqing Shen, Xin Huang, Zheng Ge, Xiangyu Zhang, Si Li, Daxin Jiang

arXiv:2503.21839v1 类型: cross 摘要: 我们探讨了一个在大型视觉-语言模型（LVLMs）中尚未充分探索的关键问题：LVLMs是否真正理解文档中的交错图像-文本？现有的文档理解基准通常使用问答格式来评估LVLMs，这种格式信息稀疏且难以保证长程依赖关系的覆盖。为了解决这一问题，我们提出了一种新颖且具有挑战性的多模态文档总结基准（M-DocSum-Bench），其中包括500篇高质量的arXiv论文，配有与人类偏好对齐的交错多模态摘要。M-DocSum-Bench是一个基于参考生成的任务，需要使用提供的参考图像生成交错的图像-文本摘要，从而同时评估在复杂多模态文档场景中的理解、推理、定位和总结能力。为了便于实现这一基准，我们开发了一个自动框架来构建摘要，并提出了一种精细度量方法M-DocEval。此外，我们还通过渐进的两阶段训练，利用多样的指令和偏好数据，进一步开发了一个稳健的总结基线M-DocSum-7B。我们在M-DocSum-Bench上的广泛实验结果表明，领先的LVLMs在处理长且交错的上下文时难以保持连贯性和准确地整合信息，往往表现出对相似图像混淆以及鲁棒性不足的问题。值得注意的是，M-DocSum-7B在与更大和闭源模型（包括GPT-4o、Gemini Pro、Claude-3.5-Sonnet和Qwen2.5-VL-72B等）相比时，实现了最先进的性能，这表明LVLMs在交错图像-文本理解方面具有改进的潜力。代码、数据和模型可在https://github.com/stepfun-ai/M-DocSum-Bench获得。

发布时间: 3/31/2025

查看原文

MSPLoRA：一种多尺度金字塔低秩适应方法用于高效的模型微调

作者: Jiancheng Zhao, Xingda Yu, Zhen Yang

arXiv:2503.21838v1 宣告类型: 交叉摘要: 参数高效微调(PEFT)已成为在减少计算成本的同时适应大规模预训练模型的一种关键方法。在PEFT方法中，LoRA通过将权重更新分解为低秩矩阵显著减少了可训练参数。然而，传统的LoRA在所有层上应用固定的秩，未能考虑层级信息的不同复杂性，导致适应效率低下并出现冗余。为了解决这一问题，我们提出了MSPLoRA（多尺度金字塔LoRA），该方法引入了全局共享LoRA、中间层次共享LoRA和层特定LoRA来分别捕捉全局模式、中间特征和细粒度信息。这种层次结构减少了层间的冗余，同时保持了强大的适应能力。在各种自然语言处理任务上的实验表明，MSPLoRA实现了更高效的适应和更好的性能，同时显著减少了可训练参数的数量。此外，基于奇异值分解的额外分析验证了其信息解耦能力，突出了MSPLoRA作为大规模语言模型参数高效微调的可扩展和有效优化策略。我们的代码可在 https://github.com/Oblivioniss/MSPLoRA 获取。

发布时间: 3/31/2025

查看原文

多模态知识增强框架下的船舶轨迹预测

作者: Haomin Yu, Tianyi Li, Kristian Torp, Christian S. Jensen

arXiv:2503.21834v1 宣传类型: cross 摘要：准确的船只轨迹预测有助于提高航行安全、导航和环境保护。然而，现有的预测方法面临着全球AIS系统提供的船只跟踪数据不规则的采样时间间隔以及船只运动复杂性所带来的挑战。这些方面使得模型的学习和泛化变得困难。为了应对这些挑战并提高船只轨迹预测，我们提出了一种多模态知识增强框架（MAKER）来进行船只轨迹预测。为了更好地应对不规则的采样时间间隔，MAKER 特设了一个大型语言模型引导的知识转移（LKT）模块，该模块利用预训练的语言模型有效地转移特定于轨迹的上下文知识。为了增强学习复杂轨迹模式的能力，MAKER 结合了一个基于知识的自适应学习（KSL）模块。该模块通过训练过程中逐步整合复杂的模式，借助动力学知识实现适配学习和增强泛化能力。在两个船只轨迹数据集上的实验结果显示，MAKER 可以将最先进的方法的预测准确性提高 12.08% 至 17.86%。

发布时间: 3/31/2025

查看原文

ATP：适用于量子神经网络高效数据编码的自适应阈值剪枝

作者: Mohamed Afane, Gabrielle Ebbrecht, Ying Wang, Juntao Chen, Junaid Farooq

arXiv:2503.21815v1 Announce Type: cross 摘要：量子神经网络（QNNs）在处理复杂数据任务方面具有巨大的潜力，但它们常常受到有限的量子位资源和高纠缠的限制，这会妨碍它们的可扩展性和效率。本文中，我们介绍了一种称为自适应阈值修剪（ATP）的编码方法，该方法可以减少纠缠并优化数据复杂性，以实现高效的量子神经网络计算。ATP根据自适应阈值动态修剪数据中的非必要特征，从而有效地减少量子电路的要求，同时保持高性能。广泛的跨多个数据集的实验表明，当与FGSM等对抗训练方法结合使用时，ATP可以降低纠缠熵并提高对抗鲁棒性。我们的结果突显了ATP在平衡计算效率和模型稳健性方面的能力，即使在资源有限的情况下也能实现显著的性能提升，从而有助于使量子神经网络在实际的资源受限环境中更具可行性。

发布时间: 3/31/2025

查看原文

使用大语言模型推断表格数据的分类学指南

作者: Zhenyu Wu, Jiaoyan Chen, Norman W. Paton

arXiv:2503.21810v1 类型：交叉摘要：表格数据的分类学推理是模式推理的一个关键任务，旨在发现表中的实体类型（即概念）并构建它们的层次结构。它在数据管理、数据探索、本体学习和许多以数据为中心的应用中扮演着重要角色。现有的模式推理系统更多地集中在XML、JSON或RDF数据上，并且通常依赖于数据的词汇格式和结构来计算相似性，对表内文本的语义利用有限。受使用大型语言模型（LLMs）进行分类学完成和构建的近期工作的启发，本文提出了两种基于LLM的方法来对表格进行分类学推理：(i) EmTT，通过使用对比学习编码器进行微调BERT等LLM并对列进行嵌入，并利用聚类进行层次结构构建，以及 (ii) GeTT，通过使用GPT-4等解码器进行迭代提示生成表实体类型及其层次结构。对三个真实世界数据集的广泛评估涵盖了输出分类学的不同方面，六个指标表明，EmTT和GeTT都可以生成与真实值高度一致的分类学。

发布时间: 3/31/2025

查看原文

LERO：由LLM驱动的混合奖励与增强观察的多.Agent强化学习演化框架

作者: Yuan Wei, Xiaohan Shan, Jianmin Li

arXiv:2503.21807v1 公告类型: cross 摘要：多智能体强化学习（MARL）面临着与单智能体RL截然不同的两个关键瓶颈：协作任务中的信用分配以及环境状态的部分可观测性。我们提出了LERO，这是一种结合大型语言模型（LLMs）与进化优化的框架，以应对这些MARL特有的挑战。该解决方案的中心在于两个LLM生成的组件：一个混合奖励函数，通过奖励分解动态分配个体信用；以及一个观察增强函数，利用推断出的环境上下文来增强部分观察。一种进化算法通过迭代的MARL训练周期优化这些组件，在此过程中，表现最佳的候选者指导后续的LLM生成。在多智能体粒子环境（MPE）中的评估表明，与基准方法相比，LERO在任务性能和训练效率上均具有优势。

发布时间: 3/31/2025

查看原文

大型语言模型与对比学习相遇：跨语言零样本情绪识别

作者: Heqing Zou, Fengmao Lv, Desheng Zheng, Eng Siong Chng, Deepu Rajan

arXiv:2503.21806v1 Announce Type: cross 摘要：跨语言语音情绪识别旨在使用无接触的方法通过不同语言估算发言人的心理状态。然而，声音特征的变异性以及语言多样性对零样本语音情绪识别提出了重大挑战，尤其是在使用多语言数据集的情况下。本文我们提出利用对比学习来细化多语言语音特征，并扩展大型语言模型以实现零样本多语言语音情绪估计。具体而言，我们采用一种新颖的两阶段训练框架对语音信号与情感空间中的语言特征进行对齐，捕获既能反映情感又能脱离语言的语音表示。为了推动该领域的研究，我们引入了一个大规模合成多语言语音情绪数据集M5SER。我们的实验表明，所提出的方法在语音情绪识别和零样本多语言语音情绪识别中都有效，包括以前未见过的数据集和语言。

发布时间: 3/31/2025

查看原文

ImF: 隐式指纹大语言模型

作者: Wu jiaxuan, Peng Wanli, Fu hang, Xue Yiming, Wen juan

arXiv:2503.21805v1 Announce Type: cross 摘要：训练大型语言模型（LLMs）资源密集且昂贵，因此知识产权（IP）保护至关重要。目前大多数现有的模型指纹方法是在LLMs中注入指纹以保护模型的所有权。这些方法创建的指纹对具有较弱的语义相关性，缺乏正常问答（QA）对在LLMs中存在的上下文连贯性和语义关联性。在本文中，我们提出了一种生成修订干预（GRI）攻击，该攻击可以有效利用这一缺陷来删除指纹，突显了需要更安全的模型指纹方法。因此，我们提出了一种新颖的注入指纹模式，称为隐式指纹（ImF）。ImF 构建强烈的语义相关性指纹对，将其伪装成LLMs内的自然问答对。这确保了指纹与正常模型行为一致，使其难以区分且对抗检测和删除具有鲁棒性。我们在多个LLMs上的实验表明，在对抗条件下，ImF 保持了高验证成功率，提供了一种可靠的方法来保护LLMs的所有权。

发布时间: 3/31/2025

查看原文

知识图嵌入中元数据表示模型的比较

作者: Shusaku Egami, Kyoumoto Matsushita, Takanori Ugai, Ken Fukuda

arXiv:2503.21804v1 类型: cross 摘要：超关系知识图谱（HRKGs）将传统KGs扩展到二元关系之外，从而使历史事件、传感器数据、视频内容和叙述等领域的上下文、来源和时间信息的表示成为可能。HRKGs可以使用多种元数据表示模型（MRMs）结构化，包括实化（REF）、单例属性（SGP）和RDF星（RDF-star）。然而，不同的MRMs对KG嵌入（KGE）和链接预测（LP）模型的影响尚不清晰。本文在链接预测任务的背景下评估了MRMs，指出了现有评估框架的局限性，并介绍了一个新的任务，以确保MRMs之间的公平比较。此外，我们提出了一种框架，该框架有效地在潜在空间中反映了三种MRMs的知识表示。在两种类型的数据集上的实验表明，在简单的HRKGs中REF表现良好，而SGP效果较差。但在复杂的HRKGs中，MRMs在链接预测任务中的差异非常小。我们的研究结果为HRKGs在链接预测任务中的最佳知识表示策略提供了贡献。

发布时间: 3/31/2025

查看原文