LLM2D

arXiv 论文列表

作者: Chang Zong, Bin Li, Shoujun Zhou, Jian Wan, Lei Zhang
arXiv:2504.15918v1 类型: cross 摘要:在教学视频中定位特定片段是一种高效的方法,以获取指导知识。一般来说,获取视频片段以进行语音解释和视觉示范的任务被称为视觉答案定位(VAL)。然而,当用户使用系统时,他们经常需要多次互动才能获得符合预期的答案。在这些互动过程中,人类通过自我提问来加深对视频内容的理解,从而准确地确定位置。因此,我们提出了一项新的任务,名为 In-VAL,旨在模拟在获得视觉答案过程中人类与视频之间的多次互动。In-VAL 任务要求交互性地解决几个语义空白问题,包括 1)输入问题中的用户意图模糊性,2)视频字幕中语言的不完整性,和 3)视频片段中内容的断裂性。为了解决这些问题,我们提出了 Ask2Loc,这是一种通过提问来解决 In-VAL 的框架。它包括三个关键模块:1)一个聊天模块,用于细化初始问题并揭示清晰的意图,2)一个重写模块,用于生成流畅的语言并创建完整的描述,以及 3)一个搜索模块,用于扩大局部上下文并提供集成内容。我们在三个重建的 In-VAL 数据集上进行了广泛的实验。与传统的端到端和两阶段方法相比,我们提出的 Ask2Loc 在 In-VAL 任务上可以提高高达 14.91(mIoU)的性能。我们的代码和数据集可以在 https://github.com/changzong/Ask2Loc 访问。
发布时间: 4/23/2025
查看原文
arXiv:2504.15912v1 类型: cross 摘要:大型开源项目以快速的速度收到大量问题(称为错误),包括其用户和开发社区提交的软件缺陷(即错误)报告和新的功能请求。由于项目资源有限,他们无法处理所有这些问题,而是需要根据项目的优先级和问题的严重程度对它们进行优先级排序。本文提出了一种新的基于保存在问题跟踪系统中的错误报告自然语言文本的问题自动优先级排序方法。我们使用一种称为TopicMiner-MTM的LDA变体进行主题建模,并使用BERT大型语言模型进行文本分类,以实现比当前最先进的方法更高的性能水平。使用包含85,156个Eclipse平台项目的错误报告的现有参考数据集进行的实验结果表明,我们在错误报告优先级预测的准确性、精确度、召回率和F1度量上优于现有方法。
发布时间: 4/23/2025
查看原文
作者: Wenjing Xiao, Chenglong Shi, Miaojiang Chen, Zhiquan Liu, Min Chen, H. Herbert Song
arXiv:2504.15905v1 宣告类型: cross 摘要:随着物联网(IoT)设备的指数级增长,边缘计算(Edge Computing, EC)逐渐在提供低成本服务方面发挥着重要作用。然而,现有的方法在用户数据相关的情景下,如交通流量预测和社会关系推荐系统等图结构场景中表现不佳。特别是,基于图神经网络(Graph Neural Networks, GNN)的方法会导致高昂的服务器通信成本。为了解决这个问题,我们提出了一种高效的基于GNN的EC架构——GraphEdge。该架构考虑了GNN任务的EC系统,其中用户之间存在关联,并且在处理用户任务时需要考虑其邻居的任务数据。具体来说,该架构首先感知用户的拓扑结构,并在每个时间步将用户的数据关联表示为一个图布局。然后,通过调用我们提出的分层遍历图剪枝算法(HiCut),根据GNN的聚合特性将图布局分割成多个弱关联子图,并且在GNN推理过程中不同子图之间的通信成本被最小化。最后,基于优化后的图布局,执行我们提出的基于深度强化学习(Deep Reinforcement Learning, DRL)的图卸载算法(DRLGO),以获得用户任务的最佳卸载策略。该卸载策略以子图为单位,尝试尽可能将用户任务在同一边缘服务器上卸载,同时最小化EC系统的任务处理时间和能耗。实验结果表明,我们提出的架构具有良好的有效性及动态适应性,并且在动态场景中也能表现出色。
发布时间: 4/23/2025
查看原文
作者: Chenxu Yang, Qingyi Si, Yongjie Duan, Zheliang Zhu, Chenyu Zhu, Zheng Lin, Li Cao, Weiping Wang
arXiv:2504.15895v1 类型: cross 摘要: 近期大规模推理语言模型(LRLMs)的进步依赖于测试时扩展,将长链式思考(长CoT)生成扩展到解决复杂任务。然而,在长CoT中过度思考不仅会降低问题解决的效率,还因极其详细或冗余的推理步骤而存在准确性损失的风险。我们提出了一种简单而有效的方法,允许LLM在生成过程中通过早期退出来自我截断CoT序列。与依赖固定启发式方法不同,所提出的方法在潜在的推理转换点(例如,"等待"标记)处监控模型行为,并在模型对试验答案表现出高信心时动态终止后续推理链的生成。该方法不需要额外的训练,并且可以无缝集成到现有的类似o1的推理LLM中。在MATH-500、AMC 2023、GPQA Diamond和AIME 2024等多个推理基准测试中进行的实验表明,所提出的方法在深seek系列推理LLM中表现一致有效,将CoT序列的长度平均减少了31%到43%,同时提高了1.7%到5.7%的准确性。
发布时间: 4/23/2025
查看原文
作者: Chengbo Zheng, Tim Miller, Alina Bialkowski, H Peter Soyer, Monika Janda
arXiv:2504.15894v1 类别: 综述 摘要:高风险决策通常需要证据的不断演变与假设的转变之间进行持续互动,而当前的AI决策支持系统在这方面并不充分支持这一动态过程。在本文中,我们介绍了一种基于感知框架的意义建构理论和评价型AI范式的混合主动性框架,用于AI辅助决策。该方法使人类和AI能够协作构建、验证和调整假设。我们通过一个利用概念瓶颈模型的人工智能辅助皮肤癌诊断原型来展示我们的框架,该原型促进了可解释的交互和诊断假设的动态更新。
发布时间: 4/23/2025
查看原文
作者: Farida Mohsen, Samir Belhaouari, Zubair Shah
arXiv:2504.15883v1 交叉公告类型 摘要:糖尿病视网膜病变是一种严重的眼科并发症,对患者的视力和整体健康构成了重大威胁。早期检测和准确分诊对于防止视力丧失至关重要。当前的自动分诊方法主要依赖于应用于视网膜底片图像的深度学习技术,但这些图像中病变的复杂且不规则的模式,形状和分布各异,使得捕捉细微变化变得困难。本研究引入了RadFuse,一种多表示深度学习框架,将非线性RadEx变换后的锥形束图像与传统的底片图像相结合,以增强糖尿病视网膜病变的检测和分诊能力。我们的RadEx变换是Radon变换的一种优化的非线性扩展,生成锥形束表示以捕捉复杂的视网膜病变模式。通过利用空间域和变换域信息,RadFuse丰富了可供深度学习模型使用的特征集,提高了严重程度级别的区分能力。我们在两个基准数据集APTOS-2019和DDR上进行了广泛的实验,使用了三种卷积神经网络(CNN):ResNeXt-50、MobileNetV2和VGG19。RadFuse在所有三种CNN架构中均优于仅使用底片图像的模型,并在两个数据集上均优于最先进的方法。对于五阶段严重程度分诊,RadFuse达到了93.24%的加权κ值,87.07%的准确率和87.17%的F1分数。在健康和糖尿病视网膜病变病例的二分类中,该方法达到了99.09%的准确率、98.58%的精确率和99.6%的召回率,超过了之前建立的模型。这些结果展示了RadFuse捕捉复杂非线性特征的能力,推动了糖尿病视网膜病变分类的进展,并促进高级数学变换在医学图像分析中的应用。
发布时间: 4/23/2025
查看原文
arXiv:2504.15876v1 对抗类型: 交叉 摘要:在群机器人技术中,包括战略对抗在内的对抗场景需要有效的决策机制,该机制需要将离散命令和连续动作结合起来。传统的任务和运动规划方法将决策划分为两层,但其单向结构无法捕捉这两层之间的相互依赖关系,从而限制了在动态环境中的适应性。在这项工作中,我们提出了一种基于层次强化学习的全新双向方法,可以动态地在两层之间实现交互。该方法有效地将命令映射到任务分配,并将动作映射到路径规划,同时利用跨训练技术来增强层次框架中的学习效果。此外,我们引入了一个轨迹预测模型,将抽象的任务表示与可执行的规划目标联系起来。在我们的实验中,该方法的对抗胜率超过80%,决策时间小于0.01秒,优于现有方法。大规模测试和真实的机器人实验演示进一步强调了我们方法的一般化能力和实际适用性。
发布时间: 4/23/2025
查看原文
作者: Lotfi Abdelkrim Mecharbat, Ibrahim Elmakky, Martin Takac, Mohammed Yaqub
arXiv:2504.15865v1 交叉类型: cross 摘要:深度学习(DL)在医学影像领域取得了显著进展。然而,将DL模型适应医学任务仍然是一项重大挑战,主要是由于两个关键因素:(1)架构选择,因为不同的任务需要专门设计的模型架构;(2)权重初始化,这直接影响模型的收敛速度和最终性能。尽管从ImageNet进行迁移学习是一种广泛采用的策略,但其效果受到自然图像和医学图像之间显著差异的限制。为了解决这些挑战,我们引入了Medical Neural Network Search(MedNNS),这是首个专门针对医学影像应用的神经网络搜索框架。MedNNS通过构建一个元空间来联合优化架构选择和权重初始化,该元空间基于数据集和模型的性能交织方式对它们进行编码。我们使用Supernetwork为基础的方法构建了这个空间,使模型动物园的规模扩大了51倍,超过了之前最先进的(SOTA)方法。此外,我们在空间构建过程中引入了排名损失和Fréchet Inception Distance(FID)损失,以捕捉模型间的相互关系和数据集间的相互关系,从而在元空间中实现更准确的对齐。在多个数据集上的实验结果表明,MedNNS显著优于ImageNet预训练的DL模型和SOTA神经架构搜索(NAS)方法,在多个数据集上平均提高了1.7%的准确率,同时收敛速度更快。代码和处理后的元空间可在https://github.com/BioMedIA-MBZUAI/MedNNS获得。
发布时间: 4/23/2025
查看原文
arXiv:2504.15827v1 宣告类型:交叉领域 摘要:现有的机器遗忘(MU)方法对超参数表现出显著的敏感性,需要细致的调优才能实现,这限制了其实用部署。在这项工作中,我们首先实证证明了现有流行的MU方法在不同场景中部署时表现出不稳定性及次优性能。为解决这一问题,我们提出了一种双优化器(DualOptim),该方法结合了自适应学习率和解耦动量因子。实证和理论证据表明,DualOptim 能够实现有效的且稳定的遗忘。通过广泛实验,我们展示了 DualOptim 能够显著提高 MU 在各种任务中的有效性和稳定性,包括图像分类、图像生成和大型语言模型,使其成为增强现有 MU 算法的 versatile 方法。
发布时间: 4/23/2025
查看原文
作者: Songyan Xie, Jinghang Wen, Encheng Su, Qiucheng Yu
arXiv:2504.15823v1 攻击类型: 横向 摘要: 在低光条件下或化妆情况下仍能有效运行的近红外(NIR)面部识别系统,容易受到物理对抗攻击的影响。为了进一步展示实际应用中的潜在风险,我们设计了一种新颖、隐蔽且实用的对抗补丁,用于在黑盒环境中攻击NIR面部识别系统。我们通过使用人类不可感知的红外吸收墨水来生成具有数字化优化形状和位置的多个补丁,用于近红外图像。为了解决数字与实际世界NIR成像之间的优化不匹配,我们开发了一种人体皮肤的光反射模型,通过模拟近红外光反射来最小化像素级的差异。 与现有的最先进的(SOTA)物理攻击NIR面部识别系统的方法相比,实验结果表明,我们的方法在数字和物理域中都提高了攻击成功率,特别是在不同面部姿势下保持了有效性。值得注意的是,所提出的方法优于现有的SOTA方法,实现了在不同模型中物理域的平均攻击成功率82.46%,而现有方法为64.18%。该补丁的代码可以在 https://anonymous.4open.science/r/Human-imperceptible-adversarial-patch-0703/ 获取。
发布时间: 4/23/2025
查看原文