LLM2D

arXiv 论文列表

作者: Josu Yeregui, Iker Lopetegi, Sergio Fernandez, Erik Garayalde, Unai Iraola
arXiv:2503.22396v1 交叉类型: cross 摘要: 本文提出了一种用于现场模型表征的新型物理参数估计框架,采用了一种包含物理信息神经网络(PINNs)和迁移学习(TL)的两阶段建模策略。在第一阶段,仅使用单粒子模型(SP modelos)方程的物理原理训练PINN。在第二阶段,固定大多数PINN参数,将关键的电化学参数设置为可训练,并通过实际的电压轮廓数据进行调整。所提出的方法显著减少了计算成本,使其适用于电池管理系统(BMS)的实时实现。此外,由于初始阶段不需要现场数据,该模型部署起来非常便捷,设置要求较低。通过所提出的方法,我们能够有效地使用运行数据估计相关电化学参数。这种能力已经在不同的退化条件下通过充电数据估算扩散系数和活性材料体积分数得到了证明。在Raspberry Pi设备上使用标准充电轮廓的数据进行实验验证,当镍锰钴电池(NMC)容量为名义容量的82.09%时,该方法估算活性材料体积分数的相对准确率为3.89%。
发布时间: 3/31/2025
查看原文
作者: Rulin Zhou, Wenlong He, An Wang, Qiqi Yao, Haijun Hu, Jiankun Wang, Xi Zhang an Hongliang Ren
arXiv:2503.22394v1 跨领域类型:交叉 摘要:在内窥镜视频中准确跟踪组织点是机器人辅助外科导航和场景理解的关键,但由于复杂的变形、器械遮挡和密集轨迹标注的稀缺性,这一任务仍然具有挑战性。现有方法在这些条件下难以实现长期跟踪,主要是因为特征利用有限和依赖标注。我们提出了一种名为 Endo-TTAP 的新型框架,通过以下方式解决这些挑战:(1) 一种多方面引导注意力 (MFGA) 模块,该模块整合了多尺度流动态、DINOv2 语义嵌入和显式运动模式,以联合预测点位置、不确定性和遮挡意识;(2) 一种两阶段的递进课程学习策略,采用辅助课程适配器 (ACA) 进行初始化和混合监督。第 I 阶段使用具有光学流真实值的合成数据来进行不确定性和遮挡调节,而第 II 阶段结合了未经监督的流一致性监督和部分监督学习,以及现成跟踪器获得的细化伪标签。对两个 MICCAI 挑战数据集和收集的数据集进行广泛验证表明,Endo-TTAP 在组织点跟踪方面达到了最先进的性能,特别是在内窥镜条件复杂的场景中。源代码和数据集将在 https://anonymous.4open.science/r/Endo-TTAP-36E5 可用。
发布时间: 3/31/2025
查看原文
作者: Giulio Federico, Giuseppe Amato, Fabio Carrara, Claudio Gennaro, Marco Di Benedetto
arXiv:2503.22374v1 交叉类型:cross 摘要:理解人类草图的本质具有挑战性,因为它们的创作方式存在广泛的变化。识别复杂的结构模式可以提高识别草图的准确性和生成草图的保真度。在本文中,我们介绍了ViSketch-GPT,这是一种通过多尺度上下文提取方法设计的新算法。该模型在多个尺度上捕捉 intricate 细节,并通过一种类似集成机制的方式将它们结合在一起,提取出的特征协同工作以增强识别和生成关键细节的能力,这些细节对于分类和生成任务至关重要。 ViSketch-GPT 的有效性通过在 QuickDraw 数据集上的广泛实验得到了验证。我们的模型建立了新的基准,显著优于现有方法,在分类和生成任务中表现优异,生成的草图保真度也显著提高。 所提出的算法提供了一个强大的框架,通过提取协作识别 intricate 细节的特征来理解复杂结构,增强了对像草图这样的结构的理解,并使其成为计算机视觉和机器学习中多种应用的多功能工具。
发布时间: 3/31/2025
查看原文
作者: Nandakishor M, Vrinda Govind V, Anuradha Puthalath, Anzy L, Swathi P S, Aswathi R, Devaprabha A R, Varsha Raj, Midhuna Krishnan K, Akhila Anilkumar T V, Yamuna P V
arXiv:2503.22363v1 力量估计类型: 横跨领域 摘要: 在人体-物体交互中的力量估计对于人机工程学、物理治疗和运动科学等领域至关重要。传统的方法依赖于专门的设备如力板和传感器,这使得准确的评估变得昂贵,并且仅限于实验室环境。在本文中,我们介绍了ForcePose,这是一种新颖的深度学习框架,通过结合人体姿态估计与物体检测来估计施加的力量。我们的方法利用MediaPipe进行骨骼跟踪,利用SSD-MobileNet进行物体识别,以创建人体-物体交互的统一表示。我们开发了一个专门的神经网络,该网络处理空间和时间特征,以预测力的大小和方向,无需任何物理传感器。在包含850个标注视频及其对应的力量测量值的数据集上进行训练后,我们的模型在力的大小上的平均绝对误差为5.83 N,在力的方向上的误差为7.4度。与现有的计算机视觉方法相比,我们的方法在标准计算硬件上仍然能够实现实时性能时,性能提高了27.5%。力分析在传统测量工具不切实际或侵入性的各种现实场景中,ForcePose开拓了新的可能性。本文讨论了我们的方法论、数据集的创建过程、评估指标以及在康复、人机工程评估和运动表现分析方面的潜在应用。
发布时间: 3/31/2025
查看原文
作者: Meghyn Bienvenu, Diego Figueira, Pierre Lafourcade
arXiv:2503.22358v1 公告类型: cross 摘要:Shapley值起源于合作博弈论,已被用于定义衡量数据库事实对得到给定查询答案所作贡献的责任度量。对于非数值查询,通过考虑玩家为事实,财富函数将每个数据库子集分配1或0的方式来进行,这取决于给定子集中的查询答案是否成立。虽然从概念上来说这一点很简单,但这种方法存在一个明显的缺点:在数据复杂性上计算这种Shapley值的问题是#P难问题,即使对于简单的合取查询也是如此。这促使我们重新审视什么是合理的责任感量度,并引入了一种新的责任度量——最小支持的加权和(WSMS)——它们满足直观的性质。有趣的是,尽管WSMS的定义简单且与Shapley值公式毫无明显联系,我们证明了每一种WSMS量度都可以被视为适当定义的合作博弈的Shapley值。此外,对于一类广泛的查询,包括所有合取查询的并集,WSMS量度在数据复杂性上具有可处理性。我们进一步探讨了WSMS计算的组合复杂性,并为各种合取查询的子类建立了(不)可处理结果。
发布时间: 3/31/2025
查看原文
作者: Yubo Li, Yidi Miao, Xueying Ding, Ramayya Krishnan, Rema Padman
arXiv:2503.22353v1 类别:交叉学科 摘要:大规模语言模型(LLMs)在各种任务中展现了令人瞩目的能力,但在高风险领域中的部署要求模型在多轮交互中保持一致的性能。本文引入了一个全面的框架来评估和提高LLM响应的一致性,做出了三项关键贡献。首先,我们提出了一种新颖的位置加权一致性(PWC)分数,该分数捕捉了多轮交互中早期阶段稳定性和恢复模式的重要性。其次,我们提出了一个精心策划的基准数据集,涵盖了多样化的领域和难度级别,专门设计用于在各种具有挑战性的后续场景下评估LLM的一致性。第三,我们引入了基于置信度的响应生成(CARG)框架,该框架通过将模型置信度信号整合到生成过程中,显著提高了响应的一致性。实验证明,CARG在不牺牲准确性的情况下显著提高了响应的一致性,突显了其在关键应用中可靠部署的潜力。
发布时间: 3/31/2025
查看原文
作者: Yancong Lin, Shiming Wang, Liangliang Nan, Julian Kooij, Holger Caesar
arXiv:2503.22328v1 交叉公告类型 摘要:场景流估计旨在从两个相邻的LiDAR扫描中恢复每个点的运动。然而,在如自动驾驶这样的实际应用场景中,点通常不会独立移动,特别是在同一物体附近的点,它们经常共享相同的运动。整合这种局部刚性运动约束是自主监督场景流估计中的一大关键挑战,通常通过后处理或附加额外的正则化来解决。虽然这些方法能够提高预测流的刚性,但它们在模型结构中缺乏对局部刚性的架构诱导偏置,导致学习效率低下和性能不佳。相反,我们在神经网络设计中引入了一个轻量级附加模块来强制执行局部刚性,从而实现端到端学习。我们设计了一个离散的投票空间,容纳所有可能的平移,然后通过可微投票来识别附近点共有的一个。此外,为了确保计算效率,我们使用柱状体而非点进行操作,并为每个柱状体学习特征进行投票。我们将投票模块插入到流行的模型设计中,并在Argoverse 2和Waymo数据集上评估其优势。我们只在计算开销方面略有增加就能优于基线工作。代码可在https://github.com/tudelft-iv/VoteFlow获得。
发布时间: 3/31/2025
查看原文
作者: Chenyang Xu, XingGuo Deng, Rui Zhong
arXiv:2503.22324v1 宣布类型: cross 摘要: 3D 高斯点积 (3D-GS) 是一种用于场景表示和视图合成的新方法。尽管支持结构-GS在实时渲染质量上优于原始的3D-GS,但其对场景的精细渲染极其依赖于足够的视角。神经网络学习的频谱偏差导致支持结构-GS在感知和学习场景中的高频信息方面能力较差。在本文中,我们提出增强输入特征的流形复杂性,并使用基于网络的特征图损失以提高3D-GS模型的图像重建质量。我们引入了AH-GS,这使得结构复杂区域的3D高斯能够在更高频的信息编码中受益,从而使模型更有效地学习场景的高频信息。此外,我们还整合了高频加强损失,进一步增强了模型捕捉详细频率信息的能力。我们的实验结果表明,我们的模型显著提高了渲染保真度,在特定场景(例如,MipNeRf360-花园)中,我们的方法在仅15K迭代次数的情况下,其渲染质量超过了支持结构-GS。
发布时间: 3/31/2025
查看原文
作者: Calvin Kammerlander, Viola Kolb, Marinus Luegmair, Lou Scheermann, Maximilian Schmailzl, Marco Seufert, Jiayun Zhang, Denis Dalic, Torsten Sch\"on
arXiv:2503.22276v1 Announce Type: 横跨领域 摘要:高效的养分管理和精准施肥是推动现代农业发展的重要因素,尤其是在力求可持续优化作物产量的地区。AgroLens 项目旨在通过开发基于机器学习(ML)的方法来预测土壤养分含量,从而应对这一挑战,无需依赖实验室测试。该项目利用先进的技术为基础,为资源受限地区(如非洲)提供可执行的见解,以提高农业生产效率。该方法首先利用 LUCAS 土壤数据集和 Sentinel-2 卫星图像开发了一个 robust 的欧洲模型,以估计关键土壤属性,包括磷、钾、氮和 pH 值。然后通过整合补充特征,如天气数据、收获率和 Clay 自动生成的嵌入式特征,对该模型进行了增强。本报告详细介绍了本项目的方法论框架、数据预处理策略和 ML 管道。先进算法,包括随机森林、极端梯度提升(XGBoost)和完全连接的神经网络(FCNN),已被实现并优化以实现精准养分预测。结果展示出稳健的模型性能,均方根误差值达到了严格的准确度标准。通过建立可重复和可扩展的土壤养分预测管道,这项研究为变革性的农业应用铺平了道路,包括精准施肥以及在资源匮乏地区如非洲的资源优化分配。
发布时间: 3/31/2025
查看原文
作者: Shivam Mehta, Nebojsa Jojic, Hannes Gamper
arXiv:2503.22275v1 交叉引用类型: cross 摘要: 将音频理解与生成整合到大型语言模型(LLMs)中仍然具有挑战性,原因在于音频的连续性及其导致的高采样率。为了解决这一问题,我们介绍了一种新颖的方法,结合了变量化编码与条件流匹配,将音频转换为超低比特率(0.23kpbs)的离散token,从而可以无缝地与LLMs中的文本token集成。我们使用低秩适应(LoRA)微调了一个预训练的基于文本的LLM,以评估其在实现真正多模态能力方面(即音频理解与生成)的有效性。我们的分词器在各种包含多种声学事件的数据集中表现优于传统的VQ-VAE。尽管在音频分词过程中损失了大量的细粒度细节,但使用离散token训练的多模态LLM在音频理解方面取得了与最先进方法相当的结果,尽管音频生成较差。我们的结果强调了需要更大的多样化数据集和更改进化的评估指标,以推进多模态LLM性能。
发布时间: 3/31/2025
查看原文