arXiv:2504.13365v1 类型: cross
摘要:在现代智能农业中,目标检测发挥着关键作用,通过实现自动化、精确农业和资源监控。从识别作物健康状况和病虫害到优化收获过程,精确的目标检测既提高了生产效率,也提高了可持续性。然而,训练目标检测模型通常需要大规模的数据收集,并且当敏感的农业数据分散在各个农场时,会引发隐私问题。为了解决这些问题,我们提出了一种基于视觉语言模型的轻量级联邦学习框架(VLLFL)。该框架利用视觉语言模型(VLM)的一般化和上下文感知检测能力,并借助于联邦学习的隐私保护特性。通过训练一个紧凑的提示生成器来提升部署在不同农场的VLM的性能,VLLFL 在保持隐私的同时减少了通信开销。实验结果表明,VLLFL 在提升VLM性能方面取得了14.53%的改进,同时减少了99.3%的通信开销。涵盖从识别各种水果到检测农业中的有害动物等多种任务,该提出的框架提供了一种高效、可扩展且针对农业应用的隐私保护解决方案。
arXiv:2504.13351v1 交叉类型: cross
摘要:从人类视频中学习执行操作任务是一种有前景的方法,用于教导机器人。然而,许多操作任务在执行过程中需要更改控制参数,例如力,这仅靠视觉数据无法捕捉到。在这项工作中,我们利用诸如臂带等传感设备来测量人类肌肉活动,以及录音设备来记录声音,以捕捉人类操作过程中的详细信息,并使机器人能够提取任务计划和控制参数以执行相同的任务。为了实现这一目标,我们引入了多模态链(CoM),这是一种提示策略,使视觉语言模型能够处理多模态的人类示范数据——视频与肌肉或音频信号的结合。通过逐步集成每个模态的信息,CoM 逐步细化任务计划并生成详细的控制参数,从而使机器人能够基于单个多模态人类视频提示执行操作任务。我们的实验表明,与基线相比,CoM 在提取任务计划和控制参数方面的准确性提高了三倍,具有强大的通用性,适用于现实世界机器人实验中的新任务设置和新对象。相关视频和代码可在 https://chain-of-modality.github.io 获取。
arXiv:2504.13344v1 跨领域公告类型
摘要:人工智能驱动的自主实验(AI/AE)可以加速材料发现,但在电子材料领域,其有效性受到长时间且复杂的设计-制备-测试-分析循环导致的数据稀缺性的阻碍。与经验丰富的科学家不同,即使是在AI/AE中,最先进的AI算法也无法在数据集有限的情况下做出信息性实时决策。为解决这一挑战,我们开发并实施了一个AI决策界面到我们的AI/AE系统中。该界面的核心元素是一个能够进行实时进度监控、数据分析并实现人机交互协作的AI顾问,旨在根据不同阶段和类型的实验主动适应。我们将这个平台应用于一种新兴的电子材料---混合离子-电子导电聚合物(MIECPs)---以工程并研究多尺度形态与性能之间的关系。使用有机电化学晶体管(OECT)作为评估混合导电性能指标(电荷载流子迁移率与体积电容积的乘积)μC*的测试设备,我们的自适应AI/AE平台在仅64次自主实验中实现了μC*比常用滴涂方法高150%的增长,达到1275 F cm-1 V-1 s-1。通过对10个统计选定样品的分析,我们确定了实现更高体积电容的两个关键结构因素:较大的晶间距离和更高的比表面积,同时还揭示了该材料的一种新的聚合物形态。
arXiv:2504.13340v1 Announce Type: cross
摘要:半月板是膝关节内的软骨组织,有助于关节润滑和重量分散。半月板损伤可能导致膝关节骨关节炎(OA)的发生和发展,这是一种导致残疾的主要原因,而目前针对该病的有效治疗方法较少。准确的自动半月板分割可以实现早期检测和治疗半月板异常,同时更深入地了解半月板在OA发病机制中的作用。该领域的主要焦点是使用卷积网络的变体,但最近的大型视觉变换分割模型尚未被利用。Segment Anything Model (SAM) 是一种所谓的基础分割模型,由于用于训练模型的数据量大,其在多种不同的任务中均显示出有用性。在这项研究中,SAM 被改编以从3D膝关节磁共振成像中实现完全自动化分割半月板。还训练了一个3D U-Net 作为基线。研究发现,在仅微调解码器的情况下,SAM 无法与3D U-Net 竞争,在保留的测试集上Dice分数为0.81±0.03,而3D U-Net 的Dice分数为0.87±0.03。在整个微调SAM的情况下,Dice分数达到了0.87±0.03。与IWOAI膝关节MRI分割挑战赛2019年的获胜Dice分数(0.88±0.03)相比,端到端训练的SAM配置和3D U-Net 的性能相当。基于Haussdorff距离的性能结果显示,两种SAM配置的匹配半月板形态的能力均劣于3D U-Net。结果表明,尽管SAM具有泛化能力,但在半月板分割中仍无法超越基本的3D U-Net,可能不适合涉及细微解剖结构、低对比度和边界不清晰的3D 医学图像分割任务。
arXiv:2504.13310v1 交叉公告类型:cross
摘要:卫星搭载的合成孔径雷达(SAR)图像中的物体检测在城市监测和灾害响应等任务中具有巨大的潜力。然而,SAR数据固有的复杂性和缺乏注释数据在推进该领域中的物体检测方面提出了重大挑战。值得注意的是,由于技术相对较低的空间分辨率和固有的噪声,卫星搭载的SAR图像中小型物体的检测尤为复杂。此外,缺乏大型标注的SAR数据集阻碍了基于监督深度学习的物体检测模型的发展。在本文中,我们引入了TRANSAR,这是一种新颖的自监督端到端的视图转换器SAR物体检测模型,该模型在未标注的SAR图像数据集上进行了掩码图像预训练,该数据集覆盖了超过25,700平方公里的地表面积。与传统的物体检测公式不同,我们的方法利用辅助二元语义分割,在后调优阶段特别是分离感兴趣的物体(尤其是小型物体)与背景时发挥了作用。此外,为了解决由于物体与图像尺寸比例不协调而固有的类别不平衡问题,我们引入了一种自适应采样调度器,在训练过程中根据课程学习和模型反馈动态调整目标类分布。这种方法使我们能够在广泛的基准SAR数据集上明显优于传统的监督架构(如DeepLabv3或UNet)以及最先进的自监督学习架构(如DPT、SegFormer或UperNet)。
arXiv:2504.13296v1 宣告类型:交叉
摘要:深度神经网络(DNNs)提供了出色的性能,但它们的复杂性往往阻碍了在资源受限环境中的部署。基于参数相关性分析的全面结构化剪枝框架减少了模型大小,特别关注计算性能。当将它们应用于多组件神经架构(MCNAs)时,它们有通过移除大参数组来损害网络完整性的风险。我们提出了一种组件感知的剪枝策略,扩展依赖图以隔离单个组件和组件间流。这创建了更小、更具体的剪枝组,以保留功能性完整。在控制任务上证明了其有效性,我们的方法实现了更高的稀疏性和减少的性能下降,为优化复杂的多组件DNNs开辟了高效的道路。
arXiv:2504.13277v1 宣告类型:交叉
摘要:自杀是全球公共卫生的关键问题,每年有数百万人经历自杀念头(SI)。在线空间使个人能够表达SI并寻求同伴支持。尽管以前的研究揭示了使用机器学习和自然语言分析检测SI的潜力,但一个关键限制是缺乏理解影响高水平自杀意图的根本因素的理论框架。为了弥合这一差距,我们采用交互式理论自杀(IPTS)作为分析框架,分析了来自Reddit r/SuicideWatch的59,607个帖子,将它们分为SI维度(孤独、缺乏报答之爱、自我憎恨和易感性)和风险因素(挫败归属感、感知的负担和自杀能力的获得)。我们发现高风险的帖子表达计划和尝试、方法和工具、弱点和痛苦。此外,我们还通过心理学和内容分析研究了支持性回应的语言,发现人们对不同阶段的自杀念头(SI)帖子的回应方式不同。最后,我们探讨了AI聊天机器人在为自杀念头帖子提供有效支持响应中的作用。我们发现尽管AI提高了结构连贯性,但专家评价指出,在提供动态、个性化和深刻共情支持方面仍然存在持续的不足。这些发现强调了在开发和考虑基于AI的干预措施以有效支持心理健康时进行仔细反思和更深入理解的必要性。
arXiv:2504.13261v1 交叉公告类型
摘要:目的:随着ChatGPT等大型语言模型(LLMs)的迅速涌现,它们对外语教育产生了重大影响,但其教学语法能力仍处于未评估状态。本文介绍了CPG-EVAL,这是首个专门设计用于在外语教学背景下评估LLMs教学语法知识的基准测试。方法:该基准测试包括五个任务,旨在评估语法识别、细微语法区别、类别区分以及对语言干扰的抵抗力。发现:较小规模的模型在单一语言实例任务中能够成功,但在多实例任务和干扰性实例的影响下表现不佳。较大的模型在抵抗干扰方面表现出更好的抵抗力,但仍存在显著的准确性提升空间。评估表明,需要更好的教学对齐和更严格的基准测试,以有效地指导LLMs在外语教育环境中的部署。价值:本研究提供了一个专门为汉语教学环境中外语教学语法能力系统评估设计的专业化、理论驱动的多层次基准框架。CPG-EVAL不仅为教育工作者、政策制定者和模型开发人员提供了关于当前AI在教育环境中的能力的实证见解,还为未来不断提高模型对齐、增强教育适用性和确保关于LLMs在外语教学中集成的知情决策的研究奠定了基础。
arXiv:2504.13241v1 宣告类型: cross
摘要: 从敌方表现出的行为中推断出敌方的目标对于网络安全、军事和策略游戏等领域的反规划及非合作多智能体系统非常重要。基于最大熵原则的深度逆强化学习(IRL)方法显示出在恢复敌方目标方面的潜力,但这些方法通常是离线的,需要大规模批次梯度下降,依赖于一阶更新,这限制了它们在实时场景中的应用。我们提出了一种在线递归深度逆强化学习(RDIRL)方法来恢复管理敌方行为和目标的成本函数。具体地,我们使用顺序二次牛顿更新来最小化标准导向成本学习(GCL)目标的一个上界,类似于扩展卡尔曼滤波器(EKF),从而得到一个快速(即收敛速度较快)的学习算法。我们证明,RDIRL能够在标准和对抗基准任务中恢复专家智能体的成本函数和奖励函数。基准任务上的实验表明,我们提出的这种方法优于几个领先的IRL算法。
arXiv:2504.13234v1 Announce Type: cross
摘要:随着迁移学习模型和数据集的不断扩大,高效的适应性和存储优化已成为关键需求。聚类选择通过识别并保留最具信息量的样本,构建目标领域的紧凑子集来应对这些挑战。然而,当前方法主要依赖于实例级别的难度评估,忽视了关键的类别级别特征,从而未能充分代表少数类。为克服这一点,我们提出了非均匀类内聚类选择(NUCS),这是一种结合了类别级别和实例级别标准的新框架。NUCS根据固有的类别难度自动为每个类别分配数据选择预算,并适应性地选择在最佳难度范围内的样本。通过明确引入类别特定的见解,我们的方法实现了更均衡且更具代表性的聚类选择,解决了先前方法的关键缺陷。全面的理论分析验证了自适应预算分配和样本选择背后的合理性,而广泛的实验(跨越14个不同的数据集和模型架构)证明了NUCS在优于最先进的方法方面的持续改进,实现了更高的准确性和计算效率。值得注意的是,在CIFAR100和Food101上,NUCS只需保留30%的样本,同时将计算时间减少60%,即可达到与全数据训练相当的准确性。我们的工作强调了在聚类选择中表征类别难度的重要性,提供了一种针对迁移学习的稳健且数据高效的解决方案。