arXiv:2504.01797v1 类别:交叉学科
摘要:工业人工智能(AI)近年来的最新进展正在重塑工业,推动更智能的制造、预测性维护以及智能决策。然而,现有的方法往往主要关注算法和模型,忽视了系统地整合专业知识、数据和模型以确保更全面和有效的AI解决方案的重要性。因此,有效开发和部署工业AI解决方案需要一种更加全面和系统的方法。为了弥补这一差距,本文总结了先前的研究并重新思考了工业AI的角色,并提出了一种统一的工业AI基础框架,其中包括三个核心模块:知识模块、数据模块和模型模块。这些模块有助于扩展和增强工业AI方法平台,支持各种工业应用。此外,旋转机械诊断的案例研究证明了该框架的有效性,并为工业AI基础框架的发展方向提出了若干未来方向。
arXiv:2504.01783v1 任务类型: 交叉
摘要:来自机器、智能设备和环境的传感器数据量不断增加,导致了大量的高分辨率但未标注的时间序列 (TS)。这些记录编码了物理现象的可识别属性及其转换,这些现象可以被建模为抽象过程。在未监督的环境中,TS 状态检测 (TSSD) 的任务是定位和识别这些状态及其转换。我们提出了 CLaP,一种新的、高度准确和高效的 TSSD 算法。它通过应用新颖的自监督技术来利用时间序列分类的预测能力,以未监督的方式进行 TSSD,检测数据片段是否源自相同的状态。为此,CLaP 通过对带有片段标记的子序列进行交叉验证,以量化片段之间的混淆程度。如果合并代表相同潜在状态的片段标签能提高整体分类质量,则 CLaP 会将这些标签合并。我们在四个基准数据集的 391 个 TS 上进行了实验评估,发现 CLaP 在检测状态方面显著优于五种最先进的竞争对手。它实现了最佳的准确率-运行时权衡,并能够扩展到大规模 TS。我们提供了一个 CLaP 的 Python 实现,可以在 TS 分析工作流中部署。
arXiv:2504.01767v1 声称类型:交叉
摘要:全球心理健康障碍(如抑郁症和 PTSD)的发病率日益增加,这要求客观和规模化的诊断工具。传统的临床评估常常面临可访问性、客观性和一致性方面的局限性。本文探讨了跨模态机器学习在应对这些挑战方面的潜在能力,利用文本、音频和视频数据中互补的信息。我们的方法包括对各种数据预处理技术进行全面分析,包括新的片段和话语格式化策略。我们系统性地评估了每种模态下的最新嵌入模型,并使用卷积神经网络(CNNs)和双向长短期记忆网络(BiLSTMs)进行特征提取。我们探索了数据层面、特征层面和决策层面的融合技术,包括将大型语言模型(LLM)预测进行新颖的集成。我们还研究了用支持向量机(SVM)替换多层感知器(MLP)分类器的影响。我们将分析扩展到使用 PHQ-8 和 PCL-C 评分的严重程度预测,并进行多类别分类(考虑共病情况)。我们的结果表明,基于话语的片段化显著提高了表现,特别是在文本和音频模态方面。决策层面的融合,结合 LLM 预测,达到了最高的准确性,抑郁情绪检测的平衡精度为 94.8%,PTSD 检测的平衡精度为 96.2%。结合 CNN-BiLSTM 架构和基于话语层级的片段化,与外部 LLM 整合,提供了一种强大而细腻的方法来检测和评估心理健康状况。我们的研究结果突显了跨模态机器学习(MMML)在开发更准确、更可访问和更个性化的心理健康护理工具方面的潜力。
arXiv:2504.01764v1 宣告类型: cross
摘要: 本文介绍了一种使用上下文感知表示学习的Transformer-GCN双流模型进行单目三维人体姿态估计的新方法。单目三维人体姿态估计面临着深度歧义、有限的3D标注训练数据、模型不平衡和模型泛化能力受限等挑战。为了解决这些问题,我们的工作引入了一种基于上下文感知表示学习的开创性运动预训练方法。具体来说,我们的方法涉及遮蔽2D姿态特征,并利用Transformer-GCN双流模型通过自蒸馏设置学习高维表示。通过关注上下文感知表示学习和空时建模,我们的方法增强了模型理解姿态之间的空时关系的能力,从而实现了更强的泛化能力。此外,借助Transformer-GCN双流模型,我们的方法有效平衡了视频姿态估计中的全局和局部交互。模型在网络流和GCN流之间自适应地整合信息,其中GCN流有效地学习相邻关键点和帧之间的局部关系,而Transformer流捕获全面的全局空时特征。我们的模型在两个基准数据集上取得了最先进的性能,Human3.6M上的MPJPE为38.0mm,P-MPJPE为31.9mm,MPI-INF-3DHP上的MPJPE为15.9mm。此外,我们在公开数据集和野外视频上的视觉实验进一步证明了我们方法的稳健性和泛化能力。
arXiv:2504.01738v1 类型: cross
摘要:专有的推理语言模型(RLMs)已经表明,通过详细的推理跟踪扩展测试时的计算显著提升了性能。尽管这些跟踪有效促进了知识向较小的指令调整模型中的传递,但传递的推理精确的本质仍然不明确。在本研究中,我们调查了萃取模型在推理过程中内化复制的风格模式的程度。为此,我们系统地分析了推理跟踪,识别出能够表征成功推理的结构和词汇模式。然后,我们引入了两个新的数据集——一个新兴推理跟踪数据集和一个明确构建以复制这些风格模式的合成数据集,以精确检查这些模式对萃取模型推理能力的影响。我们发现,使用合成跟踪训练的模型达到了相当的性能,表明萃取的推理能力在很大程度上依赖于表面模式。令人惊讶的是,即使将合成跟踪修改以导致错误的答案,我们仍观察到性能有所提高。我们的研究结果突显了如何利用风格模式来有效地提升不同模型家族中LM的推理能力。
arXiv:2504.01735v1 Announce Type: cross
摘要:大视觉-语言模型(LVLMs),如GPT-4o和LLaVA,最近取得了显著的进展,并越来越多地应用于实际应用中。然而,由于继承了视觉神经网络的敏感性,LVLMs仍然容易受到对抗性攻击的影响,这可能导致错误或恶意的输出。虽然现有的努力利用对抗性微调来增强鲁棒性,但它们通常会在干净的输入上表现出性能下降。在本文中,我们提出了一种新的基于偏好优化的对抗防御策略AdPO,专门针对LVLMs。首次以对抗性训练作为一种偏好优化问题,旨在增强模型在对干净输入生成正常输出的偏好,同时拒绝潜在的误导性输出给对抗性示例。值得注意的是,AdPO通过仅修改图像编码器,例如CLIP ViT,实现了在各种下游任务中在干净和对抗性性能上的优越表现。考虑到训练涉及到大型语言模型(LLMs),计算成本显著增加。我们验证了在较小的LVLMs上进行训练,然后转移到更大的模型上可以获得具有竞争力的性能,同时维持与基线方法相当的效率。我们的全面实验确认了所提出的AdPO的有效性,这为未来的对抗性防御研究提供了新的视角。
arXiv:2504.01724v1 Announce Type: cross
摘要:虽然基于图像的人体动画方法在实现逼真的身体和面部运动合成方面取得了进展,但在精细的整体可控性、多尺度适应性和长时间时间一致性方面仍存在关键差距,这导致了其表达能力和鲁棒性的不足。我们提出了一种基于扩散转换器(DiT)的框架DreamActor-M1,结合混合指导以克服这些限制。在运动指导方面,我们的混合控制信号整合了显式的面部表示、3D头部球体和3D身体骨架,实现了面部表情和身体动作的鲁棒控制,并产生了具有表现力且保留身份的动画。在尺度适应方面,为了处理从肖像到全身视角的各种身体姿态和图像尺度,我们采用了使用不同分辨率和尺度数据的逐步训练策略。在外观指导方面,我们将顺序帧中的运动模式与补充的视觉参考相结合,确保在复杂运动过程中不可见区域的时间一致性。实验表明,我们的方法比现有的先进工作表现更优,提供具有表现力的肖像、上半身和全身生成结果,并具有鲁棒的长时间一致性。项目页面:https://grisoon.github.io/DreamActor-M1/。
arXiv:2504.01707v1 公告类型:交叉
摘要:在上下文学习(In-context learning, ICL)是大型语言模型(LLMs)的关键,但其有效性受到有限上下文窗口的限制,尤其是在超长上下文中。为克服这一限制,我们提出了 InfiniteICL 框架,该框架借鉴人类认知系统中短时和长时记忆的模式,专注于将暂时性的上下文知识转化为永久性的参数更新。这种方法显著减少了内存使用,保持了在不同输入长度下的稳健性能,并通过上下文知识的激发、选择和巩固的原则,在理论上实现了无限上下文的整合。实验结果表明,我们的方法在事实回忆、 grounding 推理和技能获取任务中,将上下文长度减少了 90%,并且平均性能达到了全上下文提示的 103%。当在复杂、真实世界的上下文中进行序列多轮转换(长度高达 200 万标记)时,我们的方法在只使用原始上下文的 0.4% 的情况下超越了全上下文提示。这些发现突显了 InfiniteICL 在通过打破传统上下文窗口大小限制来增强 LLM 的可扩展性和效率方面的潜力。
arXiv:2504.01705v1 宣传类型: 交叉
摘要: 无人机物联网(IoD),其中无人机在数据收集和分析上进行协作,已成为监控和环境监测等应用中不可或缺的一部分。联邦学习(FL)使无人机能够在去中心化的方式下训练机器学习模型,同时保护数据隐私。然而,IoD网络中的FL容易受到数据投毒和模型反向工程等攻击的影响。联邦消除(FU)通过消除敌对数据的贡献,防止其对模型的影响来缓解这些风险。本文提出了一种名为sky of unlearning (SoUL)的联邦消除框架,该框架能够有效移除未学习数据的影响,同时保持模型性能。设计了一种选择性剪枝算法来识别并在最小程度上影响模型整体性能的情况下移除对消除有影响的神经元。仿真结果表明,SoUL在现有消除方法中表现出色,实现了与完全重新训练相当的准确性,并减少了计算和通信开销,使其成为资源受限IoD网络中的可扩展且高效的解决方案。
arXiv:2504.01700v1 交叉通知类型:跨领域
摘要:社会机器人中的个性化对于促进有效的以人为本的交互至关重要,然而系统往往面临冷启动问题,即初始用户偏好或特征不可用。本文提出了一种名为USER-LLM R1的新框架,通过动态用户画像和模型初始化解决了这一挑战。我们的方法将链式思考(CoT)推理模型与多模式输入结合以初始化用户画像,从而实现首次交互即可进行个性化交互。利用检索增强生成(RAG)架构,系统在固有的CoT过程中动态细化用户表示,确保上下文相关和适应性的响应。在ElderlyTech-VQA基准上的评估表明,与最先进的基线相比,在ROUGE-1(+23.2%)、ROUGE-2(+0.6%)和ROUGE-L(+8%)的F1分数上取得了显著改进,消融研究进一步强调了推理模型大小对性能的影响。人类评估进一步验证了该框架的有效性,特别是对于老年用户,个性化响应增强了参与度和信任度。伦理考虑,包括隐私保护和偏见缓解,得到了严格的讨论和解决,以确保负责任的部署。