LLM2D

arXiv 论文列表

作者: Hao Xu, Yinqiao Wang, Niloy J. Mitra, Shuaicheng Liu, Pheng-Ann Heng, Chi-Wing Fu
arXiv:2505.07012v1 交叉公告类型: 摘要:手影艺术是一种引人入胜的艺术形式,巧妙地利用手影在墙上复制出具有表现力的形状。在本文中,我们研究了一个逆问题:给定一个目标形状,找到左右手的姿态,使它们结合在一起产生最接近输入的影子。这一问题并不简单,因为3D手的姿态设计空间非常庞大,但由于解剖学限制而受到限制。此外,虽然输入是无色且无纹理的,但我们仍需关注输入的形状和关键特征。为应对这些挑战,我们设计了Hand-Shadow Poser,这是一个三阶段流水线,以解耦解剖学约束(由手部负责)和语义约束(由影子形状负责):(i) 生成手分配模块,探索多种但合理的左右手形状假设;(ii) 通用手影对齐模块,通过相似性驱动的策略推理粗略的手部姿态;(iii) 影子特征感知的细化模块,优化手部姿态以实现物理合理性并保留影子特征。此外,我们设计了该流水线能够在通用的公共手部数据上进行训练,从而避免使用任何专门的数据集进行训练。为了验证方法的有效性,我们构建了一个包含210个不同复杂度的手影形状的基准数据集和一系列全面的评估指标,包括一种基于DINOv2的新颖评估指标。通过与多个基线方法和用户研究的广泛比较,我们的方法被证明能够有效地为基准数据集中超过85%的案例生成双手法部姿态,并适用于多种手部形状。
发布时间: 5/13/2025
查看原文
作者: Yuxuan He, Junpeng Zhang, Hongyuan Zhang, Quanshi Zhang
arXiv:2505.06993v1 Announce Type: cross 摘要:本文提出了一种新的视角来分析深度神经网络(DNNs)的泛化能力,即直接拆解并分析编码在DNN中的可泛化和不可泛化交互的动力学过程。具体而言,这项工作建立在近期可解释AI领域的理论成就之上,该理论证明了DNN的详细推断逻辑可以严格重写为少量的AND-OR交互模式。基于这一理论,我们提出了一种有效的方法来量化每种交互的泛化能力,并在训练过程中发现交互泛化能力的明显三阶段动态。特别是在训练的早期阶段,通常会去除嘈杂的和不可泛化的交互,并学习简单的和可泛化的交互。而在第二和第三阶段,倾向于捕捉越来越复杂的难以泛化的交互。实验结果验证了非泛化交互的学习是训练损失和测试损失之间差距的直接原因。
发布时间: 5/13/2025
查看原文
作者: Xiaoyu Wang, Yue Zhao, Qingqing Gu, Zhonglin Jiang, Xiaokai Chen, Yong Chen, Luo Ji
arXiv:2505.06987v1 交叉领域类型:跨领域 摘要:情感支持对话(ESC)旨在通过有效的对话减轻个体的情感困扰。虽然大规模语言模型(LLMs)在ESC方面取得了显著进展,但大多数研究可能并未从状态模型的角度定义该图,因此无法为长期满意度提供最优解决方案。为解决这一问题,我们利用Q学习技术在LLMs上进行研究,并提出了一种名为straQ*的框架。该框架允许插拔的LLMs在ESC期间进行规划,根据长期回报确定最优策略,最终引导LLMs进行响应。在ESC数据集上的大量实验表明,straQ*在与直接推理、自我完善、思路链、微调和有限状态机等许多基线方法相比时表现更优。
发布时间: 5/13/2025
查看原文
作者: Tarik Houichime, Younes EL Amrani
arXiv:2505.06963v1 宣传类型:横跨 摘要:本文介绍了一种创新方法,使用仅前方单目相机的无人飞机(无人机)自主降落,从而避免了对深度估计相机的需求。该方法借鉴了人类固有的估算过程,将降落任务重新构想为一个优化问题。无人机利用专为着陆垫设计的透镜圆的视觉特征变化,通过感知的颜色和形状提供高度和深度的重要信息来进行估算。使用强化学习算法来近似这些估算的函数,使无人机通过训练确定理想的降落设置。该方法的有效性通过模拟和实验进行评估,展示了其在无需依赖复杂传感器配置的情况下实现稳健且精确的自主降落的潜力。该研究为低成本高效的无人机着陆解决方案的进步做出了贡献,并为各种领域的广泛应用铺平了道路。
发布时间: 5/13/2025
查看原文
arXiv:2505.06936v1 逆向类型: cross 摘要:逆电磁建模已发展成为一种强大的方法,用于以高精度和效率设计复杂的微波结构。在本研究中,我们提出了一种基于多模谐振器的Ku波段Substrate Integrated Waveguide (SIW)组件的逆向设计方法——Iterative Residual Correction Network (IRC-Net)。我们利用多模谐振结构证明了能够控制结构的谐振,因此这样的结构可以用于谐振组件和智能滤波器的设计。所提出的深度学习架构利用残差神经网络克服了传统逆向设计技术(如Feedforward Inverse Model, FIM)的局限性,提供了改进的泛化能力和预测精度。该方法首先使用FIM生成初始设计估计,随后借鉴Hybrid Inverse-Forward Residual Refinement Network (HiFR²-Net)的迭代校正策略,称为IRC-Net。实验证明相对于传统的单阶段网络,IRC-Net在预测精度上取得了显著改进,并通过统计指标、全波电磁仿真和测量进行了验证。为了验证所提出的方法,我们首先设计并制造了一个三谐振SIW结构。接下来,我们应用训练好的IRC-Net模型,根据所需频率响应预测四谐振结构的几何形状。这两种设计均被制造和测试,结果显示仿真、预测和测量结果高度一致,这证实了所提方法的有效性和实用性。
发布时间: 5/13/2025
查看原文
作者: Brian Challita, Pierre Parrend
arXiv:2505.06913v1 安全工程领域中的应用类型:跨领域 摘要:从自动化入侵测试到软件发布前发现零日攻击,代理AI在安全工程中带来了巨大的前景。这一强大能力同样伴随着相似的威胁:安全和研究社区必须在恶意行为者利用这种技术进行网络犯罪之前构建起其模型。因此,我们提出并评估了RedTeamLLM,这是一种综合架构,具有全面的安全模型,用于自动化的渗透测试任务。RedTeamLLM遵循三个关键步骤:总结、推理和执行,这些步骤嵌入了其操作能力。这一新型框架解决了四个开放挑战:计划修正、内存管理、上下文窗口约束,以及通用性与专业化之间的平衡。评估通过自动化解决一系列入门级但不简单的CTF挑战来进行。特别评估了我们代理AI框架的推理能力的贡献。
发布时间: 5/13/2025
查看原文
作者: Lishan Yang, Wei Zhang, Quan Z. Sheng, Weitong Chen, Lina Yao, Weitong Chen, Ali Shakeri
arXiv:2505.06911v1 宣告类型: cross 摘要: 在大数据时代,数据挖掘已成为从庞大而复杂的数据集中发现隐藏模式和见解不可或缺的工具。多模态数据源的集成进一步增强了其潜力。多模态联邦学习(MFL)是一种分布式方法,可以提高多模态学习的效率和质量,确保协作工作和隐私保护。然而,缺失的模态在MFL中构成了重大挑战,通常是由客户端数据质量问题或隐私政策引起的。在本文中,我们提出了MMiC框架,用于在簇内缓解MFL中模态不完整性问题。MMiC在客户端模型中替换部分参数以减轻缺失模态的影响。此外,它利用Banzhaf权力指数优化在这些条件下的客户端选择。最后,MMiC采用了一种创新的方法,通过使用Markowitz组合优化动态控制全局聚合。广泛的实验表明,MMiC在包含缺失模态的多模态数据集上的一般性和个性化性能上始终优于现有的联邦学习架构,证实了我们提出解决方案的有效性。
发布时间: 5/13/2025
查看原文
arXiv:2505.06894v1 公告类型: cross 摘要: 神经辐射场(NeRF)在新的视图合成方面取得了显著进展,但它们在不同场景和条件下的泛化仍然是一个挑战。为了解决这个问题,我们提出将一种新颖的大脑启发式规范化技术——神经泛化(NeuGen)整合到领先的NeRF架构中,包括MVSNeRF和GeoNeRF。NeuGen提取了领域不变的特征,从而增强了模型的泛化能力。它可以无缝地整合到NeRF架构中,并培养出一个全面的特征集,显著提高了图像渲染的准确性和鲁棒性。通过这种整合,NeuGen在最先进的NeRF架构的多样化数据集基准测试中表现出更好的性能,使它们在多种场景下更好地泛化。我们进行全面的定量和定性评估,证实了我们这种方法不仅在泛化能力上超越了现有模型,而且显著提高了渲染质量。我们的工作展示了将神经科学原理与深度学习框架结合的潜力,为增强新颖视图合成的泛化能力和效率设立了新的标准。我们的研究演示可以在https://neugennerf.github.io获得。
发布时间: 5/13/2025
查看原文
作者: Mihyeon Kim, Juhyoung Park, Youngbin Kim
arXiv:2505.06889v1 通知类型: cross 摘要:预训练语言模型(PLMs)通过预训练和微调在多种自然语言处理(NLP)任务中取得了卓越的性能。然而,通过对参数数量众多但下游数据集有限的模型进行微调,往往会导致模型对对抗攻击的脆弱性增加,从而在标准数据集上过拟合。 为了应对这些问题,我们从动态系统视角出发,将BERT的一层概念化为常微分方程(ODEs)的解,并在初始值扰动的情况下分析了两种主要的数值ODE求解器:显式欧拉法和隐式欧拉法的数值稳定性。 基于这些分析,我们引入了一种数值稳健的IM-连接,结合了BERT的层。该策略增强了PLMs在对抗攻击下的鲁棒性,即使在资源有限的情景下也是如此,而无需引入额外的参数或对抗训练策略。 通过对抗GLUE(AdvGLUE)数据集上的实验结果验证了IM-BERT在各种条件下的鲁棒性。与原始BERT相比,在AdvGLUE数据集上,IM-BERT的性能提升了约8.3%。此外,在资源有限的情景中,IM-BERT表现优于BERT,准确率提升了5.9%。
发布时间: 5/13/2025
查看原文
arXiv:2505.06886v1 宣传类型: 交叉 摘要: 鼠类是系统神经科学领域中研究最为广泛的小型动物模型之一。理解不同自然场景刺激在鼠类视皮层中引发的通用模式,并解码其神经表征,是计算视觉中的一个关键挑战。近年来,灵长类视皮层与分层深度神经网络之间的相似性已被广泛探讨。然而,它们在理解鼠类视觉方面的普遍有效性有限。在这项研究中,我们探讨了鼠类视觉皮层与深度学习模型在物体分类任务中的功能对齐。我们首先介绍了一种通用的表征学习策略,揭示了鼠类视觉皮层的功能映射与高性能深度学习模型在自上而下(群体水平)和自下而上(单细胞水平)场景中的显著相似性。接着,我们通过添加神经响应归一化(NeuRN)层增强了两个系统之间的表征相似性,该层受到视皮层中兴奋性和抑制性神经元激活模式的启发。为了检验NeuRN在实际任务中的性能效果,在深度学习模型中集成NeuRN,并观察到其在领域泛化任务中对数据转移的鲁棒性显著提高。我们的研究提出了一种新的框架,用于比较鼠类视觉皮层的功能架构与深度学习模型之间的关系。我们的发现对基于鼠类视觉皮层的先进AI模型的发展具有广泛的启示意义,表明这些模型可以成为研究鼠类视觉皮层神经表征的重要工具,并最终提高其在实际任务中的性能。
发布时间: 5/13/2025
查看原文