LLM2D

arXiv 论文列表

arXiv:2502.00262v1 Announce Type: cross 摘要:自主驾驶系统在处理不可预测的边缘情况场景时面临着重大挑战,例如敌对行人的运动、危险的车辆操作以及突发的环境变化。当前的端到端驾驶模型由于传统检测和预测方法的限制,在处理这些罕见事件时难以实现泛化。为了解决这个问题,我们提出了一种称为INSIGHT(语义和视觉输入的整合以实现泛化危险跟踪)的方法,这是一种分层的视觉-语言模型框架,旨在增强危险检测和边缘情况评估。通过使用多模态数据融合,我们的方法将语义和视觉表示结合起来,从而使驾驶场景的精确解析和潜在危险的准确预测成为可能。通过监督微调视觉-语言模型,我们使用基于注意力的机制和坐标回归技术优化了空间危险定位。在BDD100K数据集上的实验结果表明,我们的方法在危险预测的简便性和准确性方面显著优于现有模型,并且在泛化性能方面取得了明显提高。这一进步增强了自主驾驶系统的鲁棒性和安全性,确保在复杂的真实世界场景中提高了情况意识和潜在决策的能力。
发布时间: 2/4/2025
查看原文
作者: Shiqi He, Insu Jang, Mosharaf Chowdhury
arXiv:2502.00241v1 多模态类型: 多模态 摘要: 将多种模态纳入大型语言模型(LLMs)是增强其对非文本数据理解能力的强大途径,从而使它们能够执行多模态任务。视觉语言模型(VLMs)因其在许多实用场景中的应用而成为增长最快的多模态模型类别,这些场景包括医疗保健、机器人技术和无障碍技术。不幸的是,尽管文献中不同VLM在各种基准测试中展示了令人印象深刻的视觉能力,但它们都是由人类专家手工设计的;目前没有自动化的框架来创建特定任务的多模态模型。 我们引入了Mordal,这是一个自动化的多模态模型搜索框架,能够在搜索过程中有效地找到最适合用户定义任务的最佳VLM,无需人工干预。Mordal通过减少搜索过程中考虑的候选数量并最小化对每个剩余候选的评估时间来实现这一点。我们的评估表明,Mordal可以在网格搜索所需GPU小时数的8.9到11.6倍的较低数量下找到给定问题的最佳VLM。在我们的评估过程中,我们还发现了优于当前最先进的VLM的新VLM。
发布时间: 2/4/2025
查看原文
作者: Mehdi Nickzamir, Seyed Mohammad Sheikh Ahamdi Gandab
arXiv:2502.00232v1 交叉公告类型: 摘要:提出了一种新的混合随机森林和卷积神经网络(CNN)框架,用于高光谱图像(HSI)中的油水分类。为了解决保持空间上下文的挑战,将图像分割成较小的、非重叠的块,这些块作为训练、验证和测试的基础。随机森林在像素级分类中表现出色,优于XGBoost、注意力机制U-Net和HybridSN等模型。然而,随机森林会丢失空间上下文,限制了其充分利用高光谱数据中空间关系的能力。为了提高性能,我们在随机森林生成的概率图上训练了一个CNN,利用CNN整合空间上下文的能力。混合方法在召回率上提高了7.6%(达到0.85),F1分数提高了2.4%(达到0.84),AUC提高了0.54%(达到0.99),相比基准模型有了显著提升。这些结果突显了结合概率输出和空间特征学习对于高光谱图像情境感知分析的有效性。
发布时间: 2/4/2025
查看原文
作者: Keegan Harris, Aleksandrs Slivkins
arXiv:2502.00225v1 探索利用类型:跨域 摘要:我们评估了当前一代大规模语言模型(LLM)在面对探索与利用权衡时帮助决策代理的能力。我们使用LLM在各种(上下文相关的)多臂老虎机任务中进行探索和利用。我们发现,尽管当前的LLM在利用方面常常遇到困难,但在小规模任务中可以通过上下文内缓解措施显著提高性能。然而,即使在这种情况下,LLM的表现仍然不如简单的线性回归。另一方面,我们发现LLM在探索具有内在语义的大动作空间时确实有所帮助,它们能建议合适的探索候选者。
发布时间: 2/4/2025
查看原文
作者: Negar Hassanpour, Muhammad Kamran Janjua, Kunlin Zhang, Sepehr Lavasani, Xiaowen Zhang, Chunhua Zhou, Chao Gao
arXiv:2502.00217v1 类型: cross 摘要:在多任务学习(MTL)中平衡竞争目标仍然是一个基本的挑战,主要是由于各个任务之间存在冲突的梯度。一种常见的解决方案是计算一个动态梯度更新向量,随着优化过程的进行来平衡竞争任务。在此基础上,我们提出了锥面梯度(ConicGrad)方法,这是一种既原理清晰、扩展性强且鲁棒的MTL方法,被形成为带约束的优化问题。该方法引入了一个角度约束,动态调节梯度更新方向,将它们限制在一个以整体目标参考梯度为中心的圆锥内。通过在不过度约束其方向或幅度的情况下平衡任务特定的梯度,ConicGrad有效地解决了任务间的梯度冲突。此外,我们的框架确保了计算效率,并能够扩展到高维参数空间。我们在标准的监督学习和强化学习MTL基准上进行了广泛的实验,并展示了ConicGrad在各种任务上均实现了最先进的性能。
发布时间: 2/4/2025
查看原文
arXiv:2502.00213v1 优化类型: 横跨领域 摘要:使用 SGD 优化 Transformer 模型具有挑战性,通常需要 Adam 这类自适应优化器。然而,Adam 相比于 SGD 优越性能的原因仍然不清楚。在本研究中,我们通过关注定义为参数梯度范数差异的梯度异质性,来研究 Transformer 模型的优化问题。我们的分析表明,梯度异质性阻碍了基于梯度的优化,包括 SGD,而基于符号的优化,这是一种 Adam 的简化变体,受此影响较小。我们进一步检查了 Transformer 模型中的梯度异质性,并表明它受到层归一化放置的影响。此外,我们展示了在包含大量类别的任务中,基于符号的优化中的动量项对于防止线性头参数的过度增长非常重要。从 NLP 和视觉领域的微调 Transformer 模型的实验结果验证了我们的理论分析。本研究为 Transformer 模型的优化挑战提供了见解,并为设计未来的优化算法提供了指导。代码可在 https://github.com/tom4649/gradient-heterogeneity 获取。
发布时间: 2/4/2025
查看原文
arXiv:2502.00212v1 交叉公告类型 摘要:通过大规模语言模型(LLM)进行形式定理证明的基本挑战之一是高质量训练数据的缺乏。虽然强化学习或专家迭代在交替进行LLM生成证明和在正确生成的证明上微调时部分缓解了这一问题,但性能很快会停滞不前,原因是缺少正确证明(稀疏奖励)。为了在有限的数据下持续改进模型,我们从数学家身上汲取灵感,他们不断开发新的成果,部分通过提出新的猜想或练习题(通常是已知结果的变体),并尝试解决它们。我们设计了自我博弈定理证明器(STP),使其同时承担调研员和证明者的角色,彼此提供训练信号。调研员通过迭代训练,基于当前证明者难以证明的先前生成的猜想,激励其生成更具挑战性的猜想。证明者尝试使用标准专家迭代证明这些猜想。我们使用Lean和Isabelle的形式验证器评估STP。在Lean的训练过程中生成了198亿个令牌后,STP成功证明了LeanWorkbook数据集中26.3%的声明,是通过专家迭代之前最好结果13.2%的两倍。最终模型在miniF2F-test(61.1%,pass@3200)、Proofnet-test(23.1%,pass@3200)和PutnamBench(8/644,pass@64)上的表现达到了整体证明生成方法的最新水平。
发布时间: 2/4/2025
查看原文
arXiv:2502.00205v1 宣告类型: cross 摘要:可持续农业在确保全球食品供应方面发挥着关键作用。可持续精准农业面临的其中一个关键挑战是杂草生长,因为杂草会与作物争夺诸如水、土壤养分和阳光等必需资源,这显著影响作物产量。传统上,用化学除草剂和人工除草方法来对抗杂草。然而,这些方法可能会对环境造成损害,并且会对健康产生隐患。通过在精准农业中采用自动计算机视觉技术和地面农业消费者电子车辆,可持续、低碳的解决方案得以实现。然而,此前的研究存在诸如精度不高、计算成本高等问题。本文提出了一种名为EcoWeedNet的新型模型,通过增强杂草检测性能,而无需增加显著的计算复杂度,符合低碳农业实践的目标。此外,该模型轻量化且适合部署在地面消费者电子农业车辆和机器人上。通过在CottonWeedDet12基准数据集上进行全面实验,证实了所提模型的有效性,该数据集反映了实际场景。EcoWeedNet在参数量极少的情况下取得了接近大型模型的性能(参数量约为YOLOv4的4.21%,GFLOPs约为6.59%)。本文有效推动了下一代农业消费电子设备中自动杂草检测方法的发展,具备更低能耗和更低碳足迹的特点。本文为可持续农业消费技术的发展铺平了道路。
发布时间: 2/4/2025
查看原文
作者: Yisong Chen, Chuqing Zhao, Yixin Xu, Chuanhao Nie
arXiv:2502.00201v1 宣告类型: cross 摘要:本文系统地回顾了深度学习(DL)技术在金融欺诈检测方面的进展,这是金融领域的一个关键问题。使用Kitchenham系统的文献综述方法,分析了2019年至2024年间发表的57篇相关研究。综述突出了各种深度学习模型(如卷积神经网络、长期短期记忆网络和变压器)在信用卡交易、保险索赔和财务报表审计等领域中的有效性。评估了精度、召回率、F1分数和AUC-ROC等性能指标。探讨的主要主题包括数据隐私框架的影响、特征工程和数据预处理的进步。研究强调了失衡数据集、模型可解释性和伦理考虑等挑战,同时也提到了自动化和隐私保护技术(如区块链集成和主成分分析)带来的机会。通过审阅过去五年中的趋势,本综述确定了DL在金融欺诈检测中的关键缺口和有前途的发展方向,为研究人员和实践者提供了实用的见解。
发布时间: 2/4/2025
查看原文
作者: Abdurrahim Yilmaz, Furkan Yuceyalcin, Ece Gokyayla, Donghee Choi, Ozan Erdem Ali Anil Demircali, Rahmetullah Varol, Ufuk Gorkem Kirabali, Gulsum Gencoglan, Joram M. Posma, Burak Temelkuran
arXiv:2502.00196v1 Announce Type: cross 摘要:在皮肤科开发视觉大型语言模型(LLMs)的主要障碍是没有大规模的图像-文本对数据集。我们介绍了DermaSynth数据集,包含92,020个合成图像-文本对,这些数据是从45,205张图像(13,568张临床图像和35,561张皮肤镜图像)中精选出来的,用于皮肤科相关的临床任务。利用最先进的LLMs,使用Gemini 2.0,我们采用与临床相关的提示和自我指导方法生成多样且丰富的合成文本。数据集的元数据被整合到输入提示中,以减少潜在的幻觉。该数据集建立在开放访问皮肤科图像 repositories(DERM12345、BCN20000、PAD-UFES-20、SCIN 和 HIBA)之上,这些 repositories 拥有宽松的CC-BY-4.0许可证。我们还针对5,000个样本对初步的Llama-3.2-11B-Vision-Instruct模型DermatoLlama 1.0进行了微调。我们期望该数据集能够支持并加速皮肤科的人工智能研究。该工作的底层数据和代码可在https://github.com/abdurrahimyilmaz/DermaSynth获取。
发布时间: 2/4/2025
查看原文