LLM2D

arXiv 论文列表

作者: Haozhan Tang, Tianyi Zhang, Oliver Kroemer, Matthew Johnson-Roberson, Weiming Zhi
arXiv:2504.03129v1 交叉公告类型:cross 摘要:在非结构化环境中操作的机器人通常需要准确一致的对象级表示。这通常要求机器人在其周围环境中分割出单独的对象。虽然最近的大规模模型,如 Segment Anything (SAM) 在二维图像分割方面表现出色,但这些进步并不能直接转化为在物理3D世界中的性能。在实际3D世界中,这些模型往往将物体过度分割,并且无法在不同视角之间产生一致的掩码对应关系。在本文中,我们提出了 GraphSeg —— 一种框架,用于从环境中稀疏的一组2D图像中生成一致的3D对象分割,无需任何深度信息。GraphSeg 向图中添加边,并构建双重对应图:一个基于2D像素级相似性,另一个基于推断的3D结构。我们将分割问题表述为边添加问题,然后通过随后的图收缩解决问题,将多个2D掩码合并为统一的对象级分割。我们随后可以利用 3D 基础模型来生成分割后的3D表示。GraphSeg 通过显著减少图像数量和提高准确性实现了稳健的分割。我们在桌面上的场景中展示了最先进的性能,并且证明了GraphSeg 能够提高后续机器人操作任务的表现。代码可在 https://github.com/tomtang502/graphseg.git 获取。
发布时间: 4/7/2025
查看原文
作者: Sinjini Mitra, Anuj Srivastava, Avipsa Roy, Pavan Turaga
arXiv:2504.03119v1 宣告类型: 交叉 摘要:在城市规模上分析人类 mobility 需要模型来表示人类移动的复杂性质,而这种移动性质又受到邻近兴趣点的可达性、某个地点的潜在社会经济因素以及地理区域居民的当地交通选择的影响。在这项工作中,我们将人类移动及其相关的移动流表示为图。基于图的方法在移动性分析中的采用尚处于初期阶段,并且正被积极研究。基于图的移动性分析的挑战是多方面的——缺乏足够的高质量数据来表示高空间和时间分辨率的流动,计算资源有限,难以将大量移动数据转化为网络结构,以及图模型固有的扩展性问题等。当前的研究开发了一种方法,通过将图嵌入到连续的空间中来缓解快速图匹配、图时间序列建模和移动动态可视化方面的问题。通过实验,我们展示了如何通过出租车轨迹收集的移动数据转换为网络结构和移动流模式变化,以及这些数据可以用于下游任务,报告在匹配的图与未匹配的图相比,匹配次数平均下降约40%的错误率。
发布时间: 4/7/2025
查看原文
作者: Ziteng Wei, Qiang He, Bing Li, Feifei Chen, Yun Yang
arXiv:2504.03118v1 类型: cross 摘要:视觉变换器(ViTs)在计算机视觉任务中表现出色,但在边缘设备的多样化需求上缺乏灵活性。一个关键问题是,预训练以涵盖广泛任务的 ViTs 对于通常只在特定任务中需要一部分 ViT 知识的边缘设备来说显得“过于合格”;其在这些边缘设备上的特定任务准确率不足。我们发现,专注于设备特定任务的小型 ViTs 可以提高模型准确率,并且同时加速模型推理。本文提出了 NuWa 方法,该方法是从基本 ViT 中获取适合边缘设备特定任务需求的小型 ViTs。NuWa 可以将基本 ViT 中提取的任务特定知识转移到小型 ViTs 中,这些小型 ViTs 可以充分利用边缘设备上的受限资源,同时确保模型准确率和推理延迟之间的权衡。在三个基本 ViT 和三个公开数据集上的实验表明,与最新解决方案相比,NuWa 可以将模型准确率提高最多 11.83% ,并加速模型推理 1.29 至 2.79 倍。可在 https://anonymous.4open.science/r/Task_Specific-3A5E 复现代码。
发布时间: 4/7/2025
查看原文
作者: Xuanyu Liu, Huiyun Yao, Jinggui Gao, Zhongyi Guo, Xue Zhang, Yulin Dong
arXiv:2504.03108v1 类型:交叉 摘要:背景:卷积神经网络(CNN)和视觉变换器(ViT)是医学图像分割的主要技术。然而,CNN局限于局部上下文信息,而ViT的二次复杂性导致了显著的计算成本。同时,在皮肤病变分割中,区分不同严重程度的病灶边界也是一个挑战。目的:本研究旨在在计算成本和长距离依赖建模之间优化平衡,并实现对不同严重程度病变的优秀泛化性能。方法:我们提出了一种轻量级U形状网络,利用融合机制的视觉快速变换器(VFFM-UNet)。我们继承了快速变换器的加性注意力机制的优势,结合逐元素乘积和矩阵乘积进行综合特征提取,并减少通道以节省计算成本。为了准确识别不同严重程度的病变边界,我们设计了包含多粒度融合和通道融合的融合机制,能够在粒度和通道级别处理特征图以获取不同上下文信息。结果:在ISIC2017、ISIC2018和PH2数据集上的综合实验表明,VFFM-UNet在参数数量、计算复杂性和分割性能方面优于现有最先进的模型。简而言之,与MISSFormer相比,我们的模型在减少参数和计算成本方面分别达到了101倍和15倍的优越分割性能。结论:定量和定性的分析表明,VFFM-UNet在参数数量、计算复杂性和分割性能方面达到了与现有最先进的模型相比的理想平衡,从而确立了一个新的基准。
发布时间: 4/7/2025
查看原文
作者: Zhiqun Zuo, Ding Zhu, Mohammad Mahdi Khalili
arXiv:2504.03093v1 声明类型:交叉 摘要:本文提出了一种后处理算法,用于训练满足统计平等的公平神经网络回归模型,利用可解释的奇异值分解(SVD)权重矩阵。我们提出了对权重矩阵的线性变换,使得变换矩阵的奇异值直接对应于两个群体输出分布的第一和第二时刻差值。因此,我们可以将公平性约束转化为奇异值的约束。我们通过这些约束下的最优权重问题进行了解析求解。在各种数据集上的实验验证表明,我们的方法在不使用敏感属性进行推理的情况下,实现了与基线方法相似或更优的公平性-准确性权衡。
发布时间: 4/7/2025
查看原文
作者: Md Zahidul Islam, Md Shahidul Islam, Biswajit Chandra das, Syed Ali Reza, Proshanta Kumar Bhowmik, Kanchon Kumar Bishnu, Md Shafiqur Rahman, Redoyan Chowdhury, Laxmi Pant
arXiv:2504.03092v1 宣告类型: cross 摘要:美国比特币及其他加密货币的戏剧性采用重塑了金融格局,并提供了前所未有的投资和交易效率机会。本研究项目的首要目标是开发能够有效识别和跟踪比特币钱包交易中可疑活动的机器学习算法。通过先进的分析,研究旨在创建一个模型,该模型具有识别趋势和异常值的功能,这些功能可以揭示非法活动。当前的研究特别关注美国的比特币交易信息,强调了解这些交易经过的即时环境及其重要性。数据集包括深入的比特币钱包交易信息,涵盖交易金额、时间戳、网络流量和钱包地址等因素。数据集中的所有条目都提供了有关钱包之间财务交易的信息,包括接收到的和发送的交易,这些信息对于分析和反映可疑活动的趋势至关重要。本研究部署了三种认可的算法,其中最引人注目的是逻辑回归、随机森林和支持向量机。回顾来看,随机森林脱颖而出,表现出最高的F1分数,展示了其处理数据中非线性关系的能力。研究揭示了钱包活动中的显著模式,例如未兑现交易与最终余额之间的相关性。在跟踪加密货币方面,机器算法的应用是创建透明和安全美国市场的工具。
发布时间: 4/7/2025
查看原文
作者: Saumendu Roy, Saikat Mondal, Banani Roy, Chanchal Roy
arXiv:2504.03085v1 宣告类型: cross 摘要: 缺乏可解释性是限制AI模型实际应用的主要障碍。已经采取了多种可解释AI(XAI)技术(例如SHAP、LIME)来解释这些模型的性能。然而,用户在实际场景中使用这些技术时经常遇到挑战,因此会在技术问答论坛(如Stack Overflow(SO))上提交问题以解决这些挑战。我们开展了一项探索性研究,以揭示这些挑战、它们的严重程度以及可以使XAI技术更易于访问和使用的特性。对这项研究的贡献包括四个方面。首先,我们手动分析了663个讨论与XAI技术相关挑战的SO问题。通过仔细调查,我们编制了一份七个挑战的清单(例如,分歧问题)。然后,我们分析了这些挑战的普遍性,发现模型集成问题和分歧问题是最常见的挑战。其次,我们尝试通过确定挑战类型与答案元数据(例如,已接受的答案的存在)之间的相关性来估算每种XAI挑战的严重性。我们的分析表明,模型集成问题是最严重的挑战。第三,我们根据实践者在其工作中有效地使用XAI技术的能力,尝试感知这些挑战的严重性。实践者的回答表明,分歧问题对XAI技术的使用影响最为严重。第四,我们寻求实践者对可以提高XAI技术的可访问性和用户友好性的改进或功能的意见。大多数人都建议解释的一致性和简化集成。我们的研究发现可能有助于(a)提高XAI的可访问性和易用性,并且(b)作为未来研究的初始基准。
发布时间: 4/7/2025
查看原文
作者: Jakub Kacper Szelag, Ji-Jian Chin, Lauren Ansell, Sook-Chin Yip
arXiv:2504.03077v1 公告类型:跨领域 摘要:联邦学习(FL)最近作为一种具有前景的隐私保护分布式机器学习范式而兴起。然而,FL系统面临着显著的安全威胁,特别是由能够修改其攻击策略以逃避检测的适应性对手带来的威胁。其中一种威胁是重连接恶意客户端(RMCs)的存在,它们利用FL的开放连接性,通过修改攻击策略重新连接到系统中。为应对这一漏洞,我们提出在FL环境中整合基于身份的识别(IBI)作为一种安全保障措施。通过利用IBI,我们能够基于密码学身份方案对客户端进行身份认证,从而有效防止之前断开连接的恶意客户端重新进入系统。我们使用TNC-IBI(Tan-Ng-Chin)方案在椭圆曲线上实现IBI,确保在资源受限环境如物联网(IoT)中具有计算效率。实验结果表明,将IBI与安全聚合算法(如Krum和截尾平均)结合,显著提高了FL的鲁棒性,减少了RMCs的影响。我们进一步讨论了IBI在FL安全中的更广泛影响,强调了检测适应性对手、基于声誉的机制和将基于身份的密码学框架应用于去中心化FL架构的研究方向。我们的研究倡导采取全面的方法来保障FL安全,强调对抗不断演化的适应性对手威胁的主动防御策略的必要性。
发布时间: 4/7/2025
查看原文
作者: Ziyu Liu, Lintao Tang, Zeliang Sun, Zhengliang Liu, Yanjun Lyu, Wei Ruan, Yangshuang Xu, Liang Shan, Jiyoon Shin, Xiaohe Chen, Dajiang Zhu, Tianming Liu, Rongjie Liu, Chao Huang
arXiv:2504.03071v1 宣告类型: cross 摘要: 大型语言模型(LLMs)已成为医学信息检索的强大工具,但在阿尔茨海默病(AD)等专门领域,其准确性和深度仍有限。AD 是一个日益增长的全球健康挑战。为了填补这一空白,我们提出了 AD-GPT,这是一种针对阿尔茨海默病特定领域的生成预训练变换器,旨在增强阿尔茨海默病相关遗传和神经生物学信息的检索和分析。AD-GPT 融合了多种生物医学数据来源,包括与阿尔茨海默病相关的潜在基因、分子遗传信息以及与大脑区域相关的关键基因变异。我们开发了一种结合了 Llama3 和 BERT 的堆叠大型语言模型架构,专门针对阿尔茨海默病研究中的四个关键任务:(1) 遗传信息检索,(2) 基因-大脑区域关系评估,(3) 基因-阿尔茨海默病关系分析,以及 (4) 大脑区域-阿尔茨海默病关系映射。与最先进的大型语言模型的比较评估表明,AD-GPT 在这些任务上的精度和可靠性均优于现有模型,突显了其作为阿尔茨海默病研究和生物标志物发现的强大且专门化的人工智能工具的潜力。
发布时间: 4/7/2025
查看原文
作者: Amir Ali Farzin, Yuen-Man Pun, Philipp Braun, Iman Shames
arXiv:2504.03069v1 类别: cross 摘要:本文研究了一般化加权梯度(GEG)算法应用于凸凹问题时的不动点性质。我们讨论了凸凹问题目标函数的鞍点与GEG不动点之间的联系。我们证明,在适当的步长选择下,鞍点集(纳什均衡)是GEG稳定不动点的子集。通过分析离散时间动力系统的稳定性,获得了GEG算法的收敛性质。与现有方法相比,通过数值例子展示了这些结果和优势。
发布时间: 4/7/2025
查看原文