LLM2D

arXiv 论文列表

作者: Arianna Stropeni, Francesco Borsatti, Manuel Barusco, Davide Dalle Pezze, Marco Fabris, Gian Antonio Susto
arXiv:2505.07119v1 广告类型:跨领域 摘要:视觉异常检测(VAD)是工业环境中的一项关键任务,其中减少浪费和运营成本至关重要。在物联网(IoT)环境中部署深度学习模型会由于边缘设备的计算能力和带宽有限而带来特定的挑战。本研究探讨如何在这种限制下有效地执行VAD,通过利用紧凑且高效的处理策略。我们评估了几种数据压缩技术,研究系统延迟和检测准确性之间的权衡。在MVTec AD基准测试上的实验表明,与未压缩的数据相比,可以实现显著的压缩,同时检测异常性能的损失 minimal。
发布时间: 5/13/2025
查看原文
作者: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
arXiv:2505.07096v1 类型: cross 摘要: 人类视频为训练机器人操作策略提供了一种可扩展的方法,但缺乏标准模仿学习算法所需的动作标签。现有的跨体态方法尝试将人类动作映射到机器人动作,但在体态差异显著时往往失败。我们提出了X-Sim,一种从真实到模拟再到真实的框架,该框架使用物体运动作为密集且可转移的学习信号。X-Sim 首先从RGBD的人类视频中重建一个逼真的模拟,并追踪物体轨迹以定义以物体为中心的奖励。这些奖励用于在模拟环境中训练强化学习(RL)策略。学习到的策略然后通过合成渲染具有不同视角和照明条件的卷积来提取为图像条件化的扩散策略。为了在现实世界中转移,X-Si 引入了一种在线领域的自适应技术,在部署过程中对现实和模拟观测进行对齐。重要的是,X-Sim 不需要任何机器人远程操作数据。我们在两种环境中对5项操作任务进行了评估,并表明它:(1)在平均值上比手部跟踪和模拟到现实的基本方法提高了30%的任务进度;(2)用数据收集时间减少10倍匹配行为克隆;(3)能够应用于新的相机视角和测试时的变化。代码和视频可在https://portal-cornell.github.io/X-Sim/获取。
发布时间: 5/13/2025
查看原文
作者: Weixian Waylon Li, Hyeonjun Kim, Mihai Cucuringu, Tiejun Ma
arXiv:2505.07078v1 类别:交叉领域 摘要:大规模语言模型(LLMs)最近被用于资产定价任务和股票交易应用中,使AI代理能够从非结构化的金融数据中生成投资决策。然而,大多数基于时间的LLM投资策略评估都是在狭窄的时间框架和有限的股票 universe 中进行的,由于幸存者偏差和数据淘金偏见,导致其效果被夸大。我们通过提出FINSABER回测框架,评估跨更长时期和更大股票 universe 的基于时间的投资策略,对其的一般性和稳健性进行了严格评估。为期二十年和100多种股票的系统回测揭示了之前报道的LLM优势在更广泛的横截面和更长期内评估时显著减弱。我们的市场制度分析进一步显示,LLM策略在牛市中过于保守,表现逊于被动基准,在熊市中过于激进,导致严重亏损。这些发现突显了开发能够优先考虑趋势检测和制度意识风险控制,而不是简单地增加框架复杂性的LLM策略的必要性。
发布时间: 5/13/2025
查看原文
作者: Shusen Liu, Haichao Miao, Peer-Timo Bremer
arXiv:2505.07064v1 Announce Type: cross 摘要:虽然像ParaView这样的工具功能强大且已得到广泛认可,但它们的学习曲线陡峭,令许多潜在用户望而却步。本文介绍了ParaView-MCP,这是一种自主代理,将现代化的多模态大型语言模型(MLLM)与ParaView集成,不仅降低了入门门槛,还增强了ParaView的智能决策支持功能。通过利用MLLM最先进的推理、命令执行和视觉能力,ParaView-MCP使用户能够通过自然语言和视觉输入与ParaView进行交互。具体而言,我们的系统采用了模型应用通信的标准接口——Model Context Protocol (MCP),这使得MLLM可以直接与ParaView的Python API进行交互,从而在用户、语言模型和可视化工具之间实现无缝信息交换。此外,通过实现一个视觉反馈机制,让代理能够观察视窗,我们解锁了一系列新的功能,包括根据示例重现可视化、基于用户定义的目标进行闭环可视化参数更新,甚至涉及多个工具的跨应用程序协作。总的来说,我们认为这种由代理驱动的可视化范式可以深刻改变我们与可视化工具的交互方式。我们预计这种可视化工具的发展将在可视化研究和工业中获得显著增长。
发布时间: 5/13/2025
查看原文
作者: Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song
arXiv:2505.07062v1 公告类型: cross 摘要:我们介绍了Seed1.5-VL,这是一个设计用于推进通用多模态理解和推理的视觉语言基础模型。Seed1.5-VL 由一个拥有 532M 参数的视觉编码器和一个具有 20B 活跃参数的专家混合(MoE)大规模语言模型(LLM)组成。尽管其架构相对紧凑,但在广泛公共 VLM 基准和内部评估套件中,它在众多测试中表现出色,60 个公共基准中有 38 个达到了最先进的性能。此外,在以代理为中心的任务,如 GUI 控制和游戏玩法中,Seed1.5-VL 比领先的大规模多模态系统(包括 OpenAI CUA 和 Claude 3.7)表现更好。除了视觉和视频理解之外,它还在推理能力方面表现出色,特别是在视觉谜题等多模态推理挑战方面尤为有效。我们相信这些能力将推动更广泛的应用,覆盖各种任务。在本报告中,我们主要提供了在模型设计、数据构建和不同阶段的训练过程中构建 Seed1.5-VL 的全面经验回顾,希望这份报告能够激励进一步的研究。Seed1.5-VL 现已在 https://www.volcengine.com/(火山引擎模型 ID:doubao-1-5-thinking-vision-pro-250428)上提供。
发布时间: 5/13/2025
查看原文
作者: Samaneh Mohammadi, Iraklis Symeonidis, Ali Balador, Francesco Flammini
arXiv:2505.07041v1 Announce Type: cross 摘要:设备异构性在联邦学习(FL)中提出了重大挑战,在这种情形下,资源受限的客户端会延缓那些需要等待所有更新后再进行聚合的同步方案。通过在更新到达时立即纳入更新,异步FL显著提高了效率。尽管其效率增益得到了广泛认可,但其对隐私的影响尚未得到充分探索,尤其是对于那些更频繁地贡献更新的高端设备,这增加了它们的累计隐私暴露。本文首次全面分析了在现实设备异构性条件下,同步FL与异步FL在效率、公正性和隐私性之间的权衡。我们使用包含五台不同硬件层级边缘设备的物理测试床,实证比较了FedAvg和 Awareness of Staleness FedAsync,并结合局部差异隐私(LDP)和矩计数器来量化每个客户端的隐私损失。使用语音情感识别(SER)作为隐私关键基准,我们展示了FedAsync可以达到10倍更快的收敛速度,但加剧了公平性和隐私性差距:高端设备贡献了6-10倍更多的更新,并且隐私损失最多增加5倍,而低端设备则因更新不频繁、过时和噪声扰动而遭受更严重的准确性退化。这些发现促使需要基于客户端能力和参与动态来联合优化聚合和隐私机制的自适应FL协议,而不仅仅是静态的一刀切解决方案。
发布时间: 5/13/2025
查看原文
arXiv:2505.07036v1 Announce Type: cross 摘要:糖尿病仍然是全球性的重大健康挑战,导致严重的并发症,如肾病、视力丧失和心脏病。机器学习(ML)在医疗保健中的应用使疾病预测更加高效和准确,为早期干预和患者支持提供了途径。我们的研究介绍了一种创新的糖尿病预测框架,综合利用了传统的机器学习技术,如逻辑回归、支持向量机(SVM)、朴素贝叶斯和随机森林,以及先进的集成方法,如AdaBoost、梯度提升、额外树和XGBoost。我们方法的核心在于开发了一种新的模型,即DNet,这是一种结合了卷积神经网络(CNN)和长短期记忆(LSTM)层的混合架构,用于有效的特征提取和序列学习。DNet模型包括一个初始的卷积块来捕获关键特征,随后是一个具有跳连接的残差块,以促进高效的信息流动。我们使用了批归一化和dropout进行稳健的正则化,而LSTM层则捕捉数据中的时间依赖性。通过使用Kaggle提供的真实世界糖尿病数据集,我们的模型评估涵盖了交叉验证精度、精确度、召回率、F1分数和ROC-AUC。在所有模型中,DNet展示了最高的有效性,准确率为99.79%,AUC-ROC为99.98%,确立了其在糖尿病预测方面的优越潜力。这种强大的混合架构展示了将CNN和LSTM层相结合的价值,强调了其在医疗诊断和疾病预测任务中的适用性。
发布时间: 5/13/2025
查看原文
作者: Alexander Koebler, Thomas Decker, Ingo Thon, Volker Tresp, Florian Buettner
arXiv:2505.07023v1 类型: 横向 摘要: 我们研究了在逐渐分布偏移下监控机器学习模型的问题,其中环境随着时间缓慢变化,常导致未被察觉但显著的精度下降。为了解决这一问题,我们提出了增量不确定性感知性能监控(IUPM),这是一种新颖的无标签方法,通过使用最优运输来建模逐渐的分布偏移以估计性能变化。此外,IUPM 定量估计了性能预测的不确定性,并引入了一种主动标签程序,在有限的标签预算下恢复可靠的估计。我们的实验表明,IUPM 在各种逐渐偏移场景中优于现有的性能估计基线,并且其对不确定性的感知比其他策略更有效地引导标签获取。
发布时间: 5/13/2025
查看原文
arXiv:2505.07020v1 Announce Type: 横跨领域 摘要:本文提出了R-CAGE(Rhythmic Control Architecture for Guarding Ego)理论框架,该框架旨在重新架构长期人机互动中的情感输出。尽管先前的情感计算方法强调表达性、沉浸感和响应性,但它们往往忽略了重复情感投入所带来的认知和结构后果。R-CAGE 相反地将情感输出概念化为需要架构干预的伦理设计结构,而不是被动反应性的表现。该模型基于与情感AI系统长时间互动所引发的细微情感症状(如局部头部紧张、解释僵化和情感滞后)的经验观察。这些症状表明,系统驱动的情感与用户解释之间存在无法仅通过生物识别数据或可观察行为完全解释的失配。R-CAGE 采用以用户为中心的立场,优先考虑心理恢复、解释自主性和身份连续性。该框架由四个控制块组成:(1)节奏表达控制,调节输出节奏以减少疲劳;(2)感官结构化架构,调整情感刺激的强度和时间;(3)认知框架保护,减少语义压力以允许灵活的解释;(4)自洽响应设计,支持在解释滞后期间的自我参照恢复。通过结构化调节情感节奏、感官强度和解释的可能性,R-CAGE 将情感框定为可持续设计单位,而不是表演性的输出。目标是在保护用户免受过度饱和和认知负荷的同时,维持在AI中介环境中长期的解释代理能力。
发布时间: 5/13/2025
查看原文
arXiv:2505.07013v1 宣布类型: cross 摘要:基于摄像头的技术远程生理监测为非侵入性生命体征监测在医疗和人机交互领域提供了变革性的潜力。尽管深度学习方法在从视频数据中提取生理信号方面取得了进展,但现有的方法在应对域转移的鲁棒性方面尚未得到充分评估。远程生理监测中的这些域转移包括环境条件的变化、摄像头规格、头部运动、面部姿态和生理状态的变化,这些变化常常显著影响实际性能。跨数据集评估提供了一种客观的指标,用于评估这些域转移中的泛化能力。我们引入了目标信号约束分解模块(TSFM),这是一种新颖的多维度注意力机制,明确地将生理信号特征作为分解约束,从而实现更精确的特征提取。基于这一创新,我们介绍了MMRPhys,这是一种高效的设计双分支3D-CNN架构,同时从多模态RGB和热视频输入中估计生理脉搏体积描记图(rPPG)和呼吸(rRSP)信号。通过在五个基准数据集上的全面跨数据集评估,我们证明,带有TSFM的MMRPhys在rPPG和rRSP估计的域转移泛化方面显著优于最先进的方法,同时保持了适合实时应用的最小推理延迟。我们的方法为鲁棒多任务和多模态生理监测设定了新基准,并提供了在不受约束环境中进行实用部署的高效计算框架。基于网络浏览器的MMRPhys模型可在设备端进行实时推理的应用程序可在 https://physiologicailab.github.io/mmrphys-live 获取。
发布时间: 5/13/2025
查看原文