LLM2D

arXiv 论文列表

arXiv:2502.07172v1 Announce Type: 跨领域 摘要:近年来,使用卷积神经网络(CNNs)的深度学习在手写数学表达识别(HMER)领域取得了显著成果。然而,由于标注训练数据有限,提高性能仍然具有挑战性。本文首次提出了一个简单而有效的半监督HMER框架,通过引入双分支半监督学习。具体来说,我们将传统的深层共训练从一致性正则化简化为跨监督学习,其中一个分支的预测被用作伪标签直接监督另一个分支,实现端到端的监督。考虑到两个分支的学习在模型优化后期趋于收敛,我们还引入了一种从弱到强的策略,通过对每个分支施加不同水平的数据增强,这类似于扩展训练数据并提高网络训练的质量。同时,我们提出了一种新的模块,全局动态计数模块(GDCM),以增强HMER解码器的性能,这可以缓解长距离公式识别中的识别不准确性和重复字符的出现。我们已将代码发布在 https://github.com/chenkehua/SemiHMER。
发布时间: 2/12/2025
查看原文
arXiv:2502.07165v1 通知类型: cross 摘要: 我们提出了一种基于原则的提示策略——PRINCIPLE-BASED PROMPTING,这是一种用于文本分类的简单但有效的多代理提示策略。该策略首先要求多个LLM代理独立生成基于示范样本分析的候选原则,通过一个最终处理剂代理将它们合并为最终原则,然后将这些原则发送给分类器代理以执行下游分类任务。在不同大小的LLM上的二分类和多分类数据集上进行的大量实验表明,我们的方法不仅在宏观F1分数上比零样本提示实现了显著的性能提升(1.55% - 19.37%),而且也优于其他强基线(CoT和stepback提示)。我们方法生成的原则在两个私有数据集上帮助LLM在分类任务上表现优于手工制定的原则。我们的多代理PRINCIPLE-BASED PROMPTING方法在表现上与基于示范的少量样本提示方法持平或更优,但推理成本显著降低。消融研究显示,标签信息和多代理合作的LLM框架在生成高质量原则以促进下游分类任务方面非常重要。
发布时间: 2/12/2025
查看原文
作者: Lingze Zhang, Ellie Pavlick
arXiv:2502.07164v1 Announce Type: cross 摘要:越来越多的做法是使用合成数据训练大规模语言模型(LLMs)。通常,这种合成数据是由相同的或类似的LLMs生成的,而这些LLMs正是用来训练它们的。这引发了合成数据是否实际上会加剧某些“盲点”,并通过强化LLM已经编码的某些启发式方法来实现这一目标的疑问。在本文中,我们对Llama-2-7B-hf模型进行了模拟实验,以自然语言推理(NLI)任务为例。我们使用MultiNLI作为一般任务,使用HANS作为“盲点”任务,这是一种专门设计来衡量NLI中特定启发式策略存在的目标评估集。我们的目标是确定一般任务和盲点任务之间的性能差异是否会出现。我们的结果表明,合成数据并未以我们预期的方式强化盲点。具体来说,我们发现,在使用合成数据进行微调并不一定减少对启发式的使用,但也没有像我们假设的那样使其变得更糟。
发布时间: 2/12/2025
查看原文
作者: Fady Ibrahim, Guangjun Liu, Guanghui Wang
arXiv:2502.07161v1 类型: cross 摘要:Transformer 已经成为物体检测、语义分割和视频理解等视觉任务的基础,但其在注意力机制中的平方复杂性提出了可扩展性挑战。为了解决这些限制,Mamba 架构利用状态空间模型(SSMs)实现线性可扩展性、高效处理以及增强的上下文感知能力。本文探讨了 Mamba 架构在视觉领域应用及其近期进展,包括 Vision Mamba(ViM)和 VideoMamba,它们引入了双向扫描机制、选择性扫描机制以及时空处理,以提高图像和视频理解能力。架构创新如位置嵌入、交叉扫描模块和分层设计进一步优化了 Mamba 框架,使其更适合全局和局部特征提取。这些进展使 Mamba 成为计算机视觉研究和应用中的有前途的架构。
发布时间: 2/12/2025
查看原文
作者: Jiaying Lu, Stephanie R. Brown, Songyuan Liu, Shifan Zhao, Kejun Dong, Del Bold, Michael Fundora, Alaa Aljiffry, Alex Fedorov, Jocelyn Grunwell, Xiao Hu
arXiv:2502.07158v1 类别:交叉领域 摘要:儿童心脏骤停(CA)的早期预测对于高风险重症监护环境中的及时干预至关重要。我们提出了 PedCA-FT,这是一种新颖的基于变压器的框架,它将结构化医疗记录视图与提取的文本医疗记录视图融合起来,以充分利用高维度风险因素及其动态的交互作用。通过为每种模态视图使用专门的变压器模块,PedCA-FT 捕捉复杂的时序和上下文模式,从而生成稳健的心脏骤停风险估计。在 CHOA-CICU 数据库中筛选出的一个儿科队列上进行评估,我们的方法在五个关键性能指标上优于其他十个人工智能模型,并识别出具有临床意义的风险因素。这些发现强调了多模态融合技术在增强早期心脏骤停检测和改善患者护理方面的潜力。
发布时间: 2/12/2025
查看原文
作者: Joseph Paul Cohen, Louis Blankemeier, Akshay Chaudhari
arXiv:2502.07156v1 Announce Type:横跨领域 摘要:在医学影像中,因果解释对于理解深度学习模型的预测至关重要。我们将2D应用中的Latent Shift因果生成方法扩展至3D计算机断层扫描(CT)扫描。为了应对应对3D数据的挑战,如有限的训练样本和高内存需求,我们实施了一种基于切片的方法。该方法利用在CT切片上训练的2D编码器,随后将这些切片组合以保持3D上下文。我们在两种用于临床表型预测和肺部分割的模型上展示了这一技术。我们的方法在高分辨率的3D医学成像中既高效又能够生成可解释的因果解释。
发布时间: 2/12/2025
查看原文
作者: Feng Chen, Allan Raventos, Nan Cheng, Surya Ganguli, Shaul Druckmann
arXiv:2502.07154v1 宣告类型: cross 摘要: 大型语言模型(LLMs)的最新进展突显了将测试时计算扩展到实现复杂任务(如数学推理和代码生成)上强大性能的能力。这提出一个关键问题:在后续测试时计算策略和预算下,应该如何修改模型训练以优化性能?为此,我们关注于pass@N,这是一种简单的测试时策略,它在N个独立样本中搜索正确答案。我们惊讶地发现,使用交叉熵(CE)损失进行训练可能会与pass@N不一致,因为在更长时间的训练后,pass@N的准确性会下降。我们从CE引起的模型过自信角度解释了这一不一致的起源,并通过实验验证了过自信是pass@N扩展测试时计算的一个障碍。此外,我们建议一种原理上改进的训练损失,这种损失更适合pass@N,因为它限制了模型的自信并挽救了pass@N的测试性能。我们的算法在MATH和MiniF2F基准上展示了改进的数学推理能力,场景包括:(1)回答数学问题;和(2)通过搜索不同形状的证明树来证明定理。总体而言,我们的工作强调了优化LLM开发中两个传统上分开阶段的重要性:训练时协议和测试时搜索与推理策略。
发布时间: 2/12/2025
查看原文
作者: C\'elia Wafa Ayad, Thomas Bonnier, Benjamin Bosch, Sonali Parbhoo, Jesse Read
arXiv:2502.07153v1 宣布类型: cross 摘要: 为了确保机器学习模型解释的可靠性,建立它们的优势和局限性,并确定何时以及在何种情况下每种方法表现更好至关重要。然而,当前对每种解释方法在何时和如何使用方面的理解是不足的。为了填补这一空白,我们通过合成具有所需特性的多个数据集进行了一项全面的经验评估。我们的主要目标是评估局部解释方法提供的特征重要性估计的质量,这些方法用于解释基于决策树模型的预测。通过分析从合成数据集以及公开可用的二元分类数据集中获得的结果,我们观察到这些方法生成的特征重要性估计在幅度和符号上存在显著差异。此外,我们发现这些估计对数据中存在的特定属性敏感。虽然某些模型超参数对特征重要性分配的影响并不显著,但重要的是要认识到每种解释方法在特定情况下都有其局限性。我们的评估突显了这些局限性,并为不同解释方法在各种场景中的适用性和可靠性提供了有价值的见解。
发布时间: 2/12/2025
查看原文
作者: Qian li, Victoria Fern\`andez Abrevaya, Franck Multon, Adnane Boukhayma
arXiv:2502.07140v1 Announce Type: cross 摘要:我们提出了一种方法,仅给定少量图像即可恢复由多人组成场景的形状和辐射。由于存在额外的遮挡和杂乱,多人场景较为复杂。对于单人设置,现有使用隐式神经表示的方法已经取得了令人印象深刻的成果,能够提供准确的几何形状和外观。然而,从稀疏视角估计多个个体仍然是极具挑战性的任务。我们提出了一种神经隐式重建方法,通过以下贡献来解决这一任务的基本挑战:首先,我们提出利用人体模型(SMPL)预先计算的网格来使用几何约束。具体来说,我们使用SMPL网格正则化符号距离,并利用边界框来改进渲染。其次,我们提出了一种射线正则化方案,以最小化渲染不一致性,并提出了一种饱和正则化,以在多变的照明下实现稳健优化。在真实数据集和合成数据集上的广泛实验表明了我们方法的优势,并展示出相对于现有神经重建方法的最先进的性能。
发布时间: 2/12/2025
查看原文
作者: Blake A Myers, Matthew Q Hill, Veda Nandan Gandi, Thomas M Metz, Alice J O'Toole
arXiv:2502.07130v1 通告类型:交叉 摘要:本研究探讨了四种不同的方法,利用体态进行长期人体识别。与依赖临时特征(例如服饰)的短期重识别系统不同,我们关注的是学习那些随着时间保持稳定的持久性体态特征。我们引入了一种基于视觉变换器(ViT)的体态识别模型(来自多元数据集的体态识别,BIDDS)和一种基于Swin-ViT模型的体态识别模型(Swin-BIDDS)。我们还扩展了基于语义和非语义核心ResNet身份模型(LCRIM和NLCRIM)的先前方法,但改进了训练方法。所有模型均在包含超过190万张图像的大且多样化的数据集中进行训练,这些图像涵盖了来自9个数据库的约5000个身份。我们在标准重识别基准数据集(MARS、MSMT17、户外步态、DeepChange)以及一个不受限的数据集中进行了性能评估,该不受限数据集包括从近距离到1000米、从无人机(UAV)获取的高度图像和服饰变化的图像。这些模型之间的比较分析提供了不同骨干架构和输入图像大小如何影响在实际条件下长期体态识别性能的见解。
发布时间: 2/12/2025
查看原文