LLM2D

arXiv 论文列表

作者: Yupei Li, Manuel Milling, Bj\"orn W. Schuller
arXiv:2503.21419v1 通知类型: 新 摘要: 随着深度神经网络(DNNs)的兴起,人工智能(AI)在公共使用中达到了新的性能水平和普及程度。最初受到人类神经元及其连接的启发,神经网络成为了许多高级架构的AI模型的基础。然而,在DNN架构设计中,人类大脑中一些最为关键的过程,特别是神经发生、神经可塑性和更广泛分布的神经凋亡,已经得到了很大程度的忽视。相反,现代AI开发主要集中在构建先进的框架,如大型语言模型,这些框架在训练和推理过程中神经连接的结构保持不变。在这一点上,我们探讨了神经发生、神经凋亡和神经可塑性如何启发未来的AI进步。具体来说,我们考察了人工神经网络中类似的过程,提出了“插值”作为神经发生的概念,并重新审视了“dropout”和结构修剪作为神经凋亡的概念。此外,我们建议将神经可塑性结合在这两种机制中,以“终生学习”设置中的未来大型神经网络为目标,同时受到生物学上的启发。最后,我们提倡在这个跨学科领域进行更多的研究努力,并确定了未来探索的有希望的方向。
发布时间: 3/28/2025
查看原文
arXiv:2503.21412v1 宣告类型: 新 摘要: 大型人工智能(AI)模型在各种应用场景中表现出卓越的能力,但在网络边缘部署它们会因数据隐私、计算资源和延迟等问题带来重大挑战。在本文中,我们探讨了联邦微调和协作推理技术,以促进大型AI模型在网络受限的无线网络中的实施。首先,我们讨论了大型AI模型在特定领域中的潜在应用。随后,我们提出了联邦微调方法,以适应在网络边缘的特定任务或环境中的大型AI模型,有效地解决了通信开销问题并提高通信效率。这些方法遵循聚类、分层和异步范式,有效应对隐私问题并消除数据孤岛。此外,为了提高操作效率并减少延迟,我们开发了模型协作推理的高效框架,包括去中心化的水平协作、云边端垂直协作以及多接入协作。接着,仿真结果表明,我们提出的这些方法在各种下游任务中有效减少了大型AI模型的微调损失。最后,我们概述了几项待解决的开放挑战和研究机会。
发布时间: 3/28/2025
查看原文
arXiv:2503.21411v1 宣告类型: 新 摘要: 随着需求的增加、动态环境以及异构信息集成,现代交通系统面临着紧迫的挑战。大型语言模型(LLMs)的迅速演变提供了改变这些挑战的转型潜力。经过充分训练获得的广泛知识和高级能力使LLMs的角色从简单的文本生成者转变为智能交通系统中多功能、知识驱动的任务解决者。本文综述首先介绍了LLM4TR,这是一种新颖的概念框架,系统地将LLMs在交通中的角色划分为四个协同维度:信息处理器、知识编码器、组件生成器和决策促进者。借助统一的分类体系,本文系统地阐明了LLMs如何连接分散的数据流、增强预测分析、模拟人类推理,并在感知、学习、建模和管理交通系统任务时实现闭环交互。对于每种角色,综述涵盖了从交通预测和自动驾驶到安全分析和城市交通优化等各种应用,突显了LLMs新兴能力如上下文学习和逐步推理如何提升交通系统的操作和管理。此外,本文还编纂了实用指导,包括可用资源和计算指南,以支持实际部署。通过识别现有LLM基于解决方案中遇到的挑战,本文为推进LLM驱动的交通研究绘制了蓝图,将LLMs定位为下一代网络物理社会交通生态系统中的核心角色。在线资源可在项目页面找到:https://github.com/tongnie/awesome-llm4tr。
发布时间: 3/28/2025
查看原文
作者: Leon Keller, Daniel Tanneberg, Jan Peters
arXiv:2503.21406v1 通告类型: 新 摘要:模拟学习是一种用于训练机器人新行为的流行方法。然而,现有的大多数方法集中在教授短且孤立的技能,而不是长且多步骤的任务。为了弥合这一差距,模拟学习算法不仅要学习个体技能,还需要具备对如何将这些技能按顺序排列以有效执行扩展任务的理解。本文通过提出一种神经符号模拟学习框架来应对这一挑战。借助任务演示,系统首先学习一种符号表示,该表示抽象了低级的状态-动作空间。所学习的表示将任务分解为较简单的子任务,并允许系统利用符号规划生成抽象计划。随后,系统利用这种任务分解来学习一组神经技能,这些技能能够将抽象计划细化为可执行的机器人指令。在三个模拟的机器人环境中的实验结果表明,与基线方法相比,我们的神经符号方法提高了数据效率、增强了泛化能力,并促进了可解释性。
发布时间: 3/28/2025
查看原文
arXiv:2503.21392v1 宣告类型: 新 摘要: 在锂离子电池(LIB)健康管理系统中,准确预测剩余使用寿命(RUL)对于确保可靠性和安全性至关重要。当前的方法通常假设训练和测试数据具有相同的分布,忽视了通过纳入多样化数据源来提升模型性能的好处。为了解决这一限制,我们提出了一种数据无关的RUL预测框架及其领域适应(DA)方法,该方法利用异构数据源以提高目标预测性能。我们的方法包括全面的数据预处理,包括特征提取、去噪和归一化,以及一种结合长短期记忆(LSTM)、多头注意力和神经普通微分方程(NODE)块的数据无关预测模型,称为HybridoNet。适应版本HybridoNet Adapt使用一种新型技术进行训练,该技术借鉴了域对抗神经网络(DANN)框架、回归集成方法和最大均值偏差(MMD),以从源域和目标域的标记循环数据中学习域不变特征。实验结果表明,我们的方法优于现有最先进的技术,为实际应用提供了可靠的RUL预测。
发布时间: 3/28/2025
查看原文
arXiv:2503.21352v1 通知类型: 新 摘要: 大型语言模型为使用计算机进行密集任务提供了机会,实现了以前未曾考虑的科研机会。其中一个机会可能是系统地审查科学文献。在这里,我们展示了如何使用大型语言模型来构建与天气和研究预报(WRF)模型中的微物理参数化相关的2699篇出版物的文献综述,目标是了解它们在模拟降水时的使用方式及其系统偏差。数据库是从Web of Science和Scopus搜索中识别出的出版物构建而成的。使用了大型语言模型GPT-4 Turbo从2699篇出版物的文本中提取有关模型配置和性能的信息。我们的结果揭示了全球范围内九种最受欢迎的微物理参数化方法的使用情况:Lin、Ferrier、WRF单时刻、戈达德积云集合、Morrison、Thompson和WRF双时刻。在2020年之前,更多的研究使用了一时刻参数化;而在2020年之后,使用了两时刻参数化。在这九种参数化中,有七种倾向于高估降水。然而,参数化的系统偏差在不同地区有所不同。除了使用Lin、Ferrier和Goddard参数化模拟在几乎所有地点倾向于低估降水外,其余六种参数化则倾向于高估,尤其是在中国、东南亚、美国西部和中非等地。这种方法可以被其他研究人员用来帮助理解如何通过人工智能的力量利用日益庞大的科学文献来解决他们的研究问题。
发布时间: 3/28/2025
查看原文
作者: Haoran Luo, Haihong E, Guanting Chen, Yandan Zheng, Xiaobao Wu, Yikai Guo, Qika Lin, Yu Feng, Zemin Kuang, Meina Song, Yifan Zhu, Luu Anh Tuan
arXiv:2503.21322v1 检索增强生成 (RAG) 类型: 新型 摘要: 虽然基于片段的标准检索增强生成 (RAG) 将知识结构化为图,以便利用实体之间的关系,但之前的方法受限于二元关系:图中的每条边只能连接两个实体,无法很好地建模广泛存在于现实中的 n-元关系。为了解决这一限制,我们提出了一种新的基于超图的 RAG 方法——HyperGraphRAG,它通过超边表示 n-元关系事实,建模现实世界中的复杂 n-元关系。为了在超图中检索和生成内容,我们引入了一个完整的管道,包括超图构建方法、超图检索策略以及超图指导生成机制。实验结果表明,HyperGraphRAG 在准确性和生成质量方面均优于标准 RAG 和 GraphRAG,在医学、农业、计算机科学和法律等领域均表现出色。
发布时间: 3/28/2025
查看原文
作者: Jiaqi Han, Jingwen Ye, Shunyu Liu, Haofei Zhang, Jie Song, Zunlei Feng, Mingli Song
arXiv:2503.21272v1 公告类型: 新 摘要:大型语言模型的成功引发了对模型融合技术的广泛关注,特别是无需训练的方法,这些方法能够在参数空间内整合模型的能力。然而,仍然存在两个挑战:(1)所有参数的统一处理会导致性能下降;(2)基于搜索的算法通常效率低下。在本文中,我们提出了一种名为强化模型融合(RMM)的创新框架,该框架包括一个特别为融合任务设计的环境和智能体。这些组件相互作用,执行逐层融合操作,旨在搜索最优的融合架构。值得注意的是,RMM 不需要在原模型上进行任何梯度计算,使其适用于边缘设备。此外,在评价过程中利用数据子集,我们解决了奖励反馈阶段的瓶颈问题,从而将 RMM 加速了高达 100 倍。广泛的实验表明,RMM 在各种视觉和 NLP 数据集上实现了最先进的性能,并有效地克服了现有基准方法的局限性。我们的代码可在 https://github.com/WuDiHJQ/Reinforced-Model-Merging 获取。
发布时间: 3/28/2025
查看原文
arXiv:2503.21232v1 宣告类型: 新 摘要: 自动驾驶汽车(AVs)无法推断障碍物的材料属性限制了其决策能力。虽然AVs依赖于摄像头、LiDAR和雷达等传感器系统来检测障碍物,但这项研究建议通过将传感器与基于知识图谱(KG)的 world 模型结合,以提高AVs对物理材料性质的理解。除了传感器数据外,AVs还可以利用描述障碍物及其属性之间关系的语义KG来推断可塑性、密度和弹性等品质。我们使用CARLA自动驾驶模拟器评估了带有和不带有KG集成的AV性能。研究结果表明,基于KG的方法改善了障碍物管理,使AV能够利用材料属性做出更明智的决策,例如是否要变道或应用紧急刹车。例如,集成KG的AV在面对交通锥等坚硬障碍物时改变了车道,并成功通过避开塑料袋等柔韧性物品避免了碰撞。与控制系统相比,基于KG的框架能够更迅速地响应障碍物,并导致更多情况下发生紧急停车(增加了13.3%的情况)。此外,我们的方法在实验场景中的换道操作成功率比控制方法高出6.6%,特别是在处理大型、高压力障碍物时效果更明显。尽管我们特别关注自动驾驶,但我们的工作展示了基于KG的world模型在提高包含实体AI系统的决策能力方面具有潜力,并且可以扩展到其他领域,包括机器人技术、医疗保健和环境模拟。
发布时间: 3/28/2025
查看原文
作者: Sadikshya Gyawali, Ashwini Mandal, Manish Dahal, Manish Awale, Sanjay Rijal, Shital Adhikari, Vaghawan Ojha
arXiv:2503.21178v1 通知类型: 新 摘要: 化学反应网络是用于建模和探索复杂生物过程、生物化学相互作用以及系统生物学中不同动态行为的重要方法。但是,制定这样的反应动力学需要花费相当多的时间。在这篇论文中,我们利用现代大规模语言模型的效率来自动化化学反应网络的随机蒙特卡洛模拟,并通过自然语言提供的反应描述来实现模拟。我们还将这一过程整合到广泛使用的模拟工具Copasi中,进一步为建模者和研究人员提供便利。在这项工作中,我们展示了现代大规模语言模型对解析和创建用于建模复杂化学反应过程的反应动力学的有效性和局限性。
发布时间: 3/28/2025
查看原文