LLM2D

arXiv 论文列表

近年来,人工智能在通用电路计算方面取得了显著进展,这为我们理解大脑新皮层和小脑如何在感觉、认知和运动等不同领域实现多种功能提供了潜在的视角,尽管它们的电路结构是统一的。然而,除非存在明显的相似性,否则大脑与人工智能的比较具有挑战性,以往的综述仅限于类脑视觉人工智能与视觉新皮层的比较。为了能够跨不同功能领域进行比较,我们在此将电路计算细分为三个要素——电路结构、输入/输出和学习算法——并评估每个要素的相似性。通过这种新颖的方法,我们发现了大脑和人工智能之间广泛的相似性和趋同进化,为神经科学的关键概念提供了新的见解。此外,受人工智能处理机制的启发,我们提出了一种新的理论,该理论整合了已建立的神经科学理论,特别是内部模型理论和镜像神经元系统理论。新皮层和小脑都根据过去的信息预测未来的世界事件,并从预测误差中学习,从而获得世界的模型。这些模型能够实现三个核心过程:(1)预测——生成未来信息;(2)理解——通过压缩和抽象的感觉信息来解释外部世界;(3)生成——重新利用未来信息生成机制来产生其他类型的输出。这些过程的普遍应用是新皮层和小脑能够用统一的电路完成各种功能的基础。我们的系统方法、见解和理论有望在理解大脑方面取得突破性进展。
发布时间: 11/26/2024
查看原文
作者: Haeyong Kang, Chang D. Yoo
受优良初始化彩票假设(WLTH)的启发,该假设提供了次优微调解决方案,我们提出了一种新颖的全微调持续学习(CL)方法,称为 Soft-TransFormers (Soft-TF)。Soft-TF 顺序学习并为每个任务选择一个最优的软网络或子网络。在 CL 的顺序训练过程中,Soft-TF 联合优化稀疏层的权重以获得任务自适应的软(实值)网络或子网络(二元掩码),同时保持预训练的层参数冻结。在推理过程中,Soft-TF 识别出的任务自适应网络会掩盖预训练网络的参数,为每个任务映射到最优解,并最大限度地减少灾难性遗忘 (CF)——软掩码保留了预训练网络的知识。在 Vision Transformer (ViT) 和 CLIP 上进行的大量实验证明了 Soft-TF 的有效性,在各种 CL 场景(包括类增量学习 (CIL) 和任务增量学习 (TIL))中实现了最先进的性能,并得到了收敛理论的支持。
发布时间: 11/26/2024
查看原文
作者: Guangzhao Dai, Jian Zhao, Yuantao Chen, Yusen Qin, Hao Zhao, Guosen Xie, Yazhou Yao, Xiangbo Shu, Xuelong Li
视觉和语言导航(VLN)任务中,智能体需要遵循指令到达目标位置,近年来取得了显著进展。然而,与具有预定义轨迹的离散环境导航相比,连续环境下的视觉和语言导航(VLN-CE)面临更大的挑战,因为智能体可以自由地导航到任何没有障碍物的位置,并且更容易受到视觉遮挡或盲区的干扰。最近的方法试图通过想象未来的环境来解决这个问题,无论是通过预测未来的视觉图像还是语义特征,而不是仅仅依赖于当前的观察。然而,这些基于RGB图像和特征的方法缺乏有效的导航所必需的直观的表观级信息或高级语义复杂性。为了克服这些局限性,我们引入了一种新颖的、可泛化的基于3DGS的预训练范式,称为UnitedVLN,它通过联合渲染高保真360度视觉图像和语义特征,使智能体能够更好地探索未来的环境。UnitedVLN采用两种关键方案:先搜索后查询的采样和先分离后联合的渲染,这有助于有效利用神经基元,帮助整合外观和语义信息,从而实现更稳健的导航。大量的实验表明,UnitedVLN在现有的VLN-CE基准测试中优于最先进的方法。
发布时间: 11/26/2024
查看原文
作者: Yan Miao, Georgios Fainekos, Bardh Hoxha, Hideki Okamoto, Danil Prokhorov, Sayan Mitra
利用仿真环境中逼真的驾驶场景测试自动驾驶系统(ADS)对于验证其性能至关重要。然而,由于解释高维视频数据复杂且精确手动重建场景耗时,将真实世界的驾驶视频转换为仿真场景是一项重大挑战。在这项工作中,我们提出了一种新颖的框架,该框架可自动将真实世界的汽车碰撞视频转换为用于ADS测试的详细仿真场景。我们的方法利用提示工程视频语言模型(VLM)将行车记录仪镜头转换为SCENIC脚本,这些脚本在CARLA模拟器中定义环境和驾驶行为,从而能够生成逼真的仿真场景。重要的是,我们的框架并非仅仅旨在进行一对一的场景重建,而是专注于捕捉原始视频中的基本驾驶行为,同时在天气或道路状况等参数方面提供灵活性,以促进基于搜索的测试。此外,我们引入了一种相似性度量,通过比较真实视频和模拟视频之间驾驶行为的关键特征,帮助迭代地细化生成的场景。我们的初步结果表明,该方法具有显著的时间效率,可在几分钟内完成真实到仿真的转换,实现完全自动化且无需人工干预,同时保持对原始驾驶事件的高保真度。
发布时间: 11/26/2024
查看原文
作者: Mohanad Odema, Luke Chen, Hyoukjun Kwon, Mohammad Abdullah Al Faruque
我们研究了新兴的芯粒式神经处理单元在加速受限汽车环境中车载 AI 感知工作负载方面的应用。我们的研究动机源于芯粒技术正日益成为新兴车载架构的组成部分,它在性能、模块化和定制化之间提供了具有成本效益的平衡;以及感知模型是自动驾驶系统中最计算密集型的工作负载。以特斯拉Autopilot感知流水线为例,我们首先分解其组成模型,并在不同的芯粒加速器上分析其性能。基于这些见解,我们提出了一种新颖的调度策略,以高效地在多芯片 AI 加速器上部署感知工作负载。我们使用标准 DNN 性能模拟器 MAESTRO 进行的实验表明,与单片加速器设计相比,我们的方法实现了 82% 的吞吐量提升和 2.8 倍的处理引擎利用率提升。
发布时间: 11/26/2024
查看原文
大型语言模型(LLM)开启了人工智能(AI)的变革时代。然而,LLM庞大的数据规模和参数量需要高要求的计算和内存资源,限制了其对更广泛用户和研究人员的可及性。本文介绍了一种有效的方法,提高了LLM推理的运行效率和经济性。通过利用基于Transformer的联邦学习(FL)和模型并行分布式训练,我们的模型有效地将计算负载和内存需求分配到参与者网络中。此策略允许用户,特别是资源有限的用户,协同训练最先进的LLM。我们还在FL框架内创新了一种激励机制,奖励建设性贡献并过滤恶意活动,从而保障训练过程的完整性和可靠性。同时,我们利用内存层次结构策略和权重矩阵上的奇异值分解(SVD)来进一步提高计算和内存效率。我们的结果源于公式分析和数值计算,证明了资源使用的显著优化,并使最先进的LLM能够被更广泛地访问,确保大规模用户都能为这些先进模型做出贡献并从中受益。
发布时间: 11/26/2024
查看原文
作者: Redwan Ibne Seraj Khan, Kunal Jain, Haiying Shen, Ankur Mallick, Anjaly Parayil, Anoop Kulkarni, Steve Kofsky, Pankhuri Choudhary, Ren\`ee St. Amant, Rujia Wang, Yue Cheng, Ali R. Butt, Victor R\"uhle, Chetan Bansal, Saravan Rajmohan
在托管各种应用程序的多租户大型语言模型 (LLM) 服务平台中,某些用户可能会提交过多的请求,导致其他用户无法使用服务,并造成不公平现象。现有的公平性方法没有考虑不同应用程序和多个LLM调用中令牌长度的变化,因此不适用于此类平台。为了解决公平性挑战,本文分析了来自微软托管的真实世界多租户LLM平台MS CoPilot上数千用户的数百万个请求。我们的分析证实了现有方法的不足,并指导了FairServe系统的开发,该系统可确保跨各种应用程序公平访问LLM。FairServe提出了一种基于应用程序特性的请求限流,并结合基于加权服务计数器的调度技术,以遏制滥用行为并确保公平性。我们在真实世界跟踪数据上的实验结果表明,与最先进的方法相比,FairServe在确保公平性方面具有优越的性能。我们正在积极努力将我们的系统部署到生产环境中,预计将惠及全球数百万客户。
发布时间: 11/26/2024
查看原文
作者: Chao Fang, Man Shi, Robin Geens, Arne Symons, Zhongfeng Wang, Marian Verhelst
广泛使用的仅权重量化大型语言模型(LLM)利用低位整数 (INT) 权重并保留浮点数 (FP) 激活,从而降低了存储需求,同时保持了精度。然而,这将能量和延迟瓶颈转移到了与代价高昂的内存访问和计算相关的 FP 激活上。现有的 LLM 加速器主要关注计算优化,而忽略了联合优化 FP 计算和数据移动的潜力,特别是对于 LLM 推理中占主导地位的 FP-INT GeMM 运算。 为了解决这些挑战,我们研究了不同 LLM 模块中激活精度的敏感性及其对整体模型精度的影响。基于我们的发现,我们首先提出了 Anda 数据类型:一种具有组共享指数位和动态尾数位分配的自适应数据格式。其次,我们开发了一种迭代式训练后自适应精度搜索算法,该算法优化不同 LLM 模块的位宽,以平衡模型精度、能源效率和推理速度。最后,提出了一套硬件优化技术,以最大限度地利用 Anda 格式的优势。这些技术包括基于位平面的数据组织方案、具有位串行计算的 Anda 增强处理单元以及运行时位平面 Anda 压缩器,以同时优化存储、计算和内存占用。我们对 FPINT GeMM 运算的评估表明,对于 OPT、LLaMA 和 LLaMA-2 系列等流行的 LLM,Anda 在 GPU 级 FP-FP 基线上的平均速度提升了 2.4 倍,面积效率提高了 4.0 倍,能源效率提高了 3.1 倍。Anda 在各种应用场景、精度要求和系统性能方面都表现出强大的适应性,能够在广泛的部署场景中实现高效的 LLM 推理。
发布时间: 11/26/2024
查看原文
作者: Ruiqiang Xiao, Songning Lai, Yijun Yang, Jiemin Wu, Yutao Yue, Lei Zhu
在许多应用中,例如医学影像、自动驾驶和遥感,如何在没有标记数据的情况下将机器学习模型适应新的领域,尤其是在源数据不可访问的情况下,是一个关键挑战。这项任务被称为无源数据无监督域适应 (SFUDA),它涉及仅使用未标记的目标数据将预训练模型适应目标领域,这可能导致过拟合、欠拟合以及由于领域差异和噪声而导致的泛化能力差等问题。现有的 SFUDA 方法通常依赖于单模型架构,难以应对目标域中的不确定性和可变性。为了应对这些挑战,我们提出了 DRIVE(通过信息可变性和熵实现的双重鲁棒性)框架,这是一种利用双模型架构的新型 SFUDA 框架。两个模型以相同的权重初始化,并行工作以捕捉不同的目标域特征。一个模型通过投影梯度下降 (PGD)(由互信息引导)暴露于扰动中,专注于高不确定性区域。我们还引入了一种熵感知伪标签策略,该策略根据预测不确定性调整标签权重,确保模型关注可靠数据,同时避免噪声区域。适应过程分为两个阶段:第一阶段使用互信息一致性损失在稳定特征上对齐模型;第二阶段根据第一阶段的损失动态调整扰动水平,鼓励模型探索目标域的更广泛范围,同时保持现有性能。这增强了泛化能力和抗干扰能力。在标准 SFUDA 基准上的评估表明,DRIVE 始终优于以前的方法,在复杂的 target domains 中实现了改进的适应精度和稳定性。
发布时间: 11/26/2024
查看原文
生成式人工智能正在通过实现个性化学习、提高行政效率和促进创造性参与来改变教育。本文探讨了这些工具为教学法带来的机遇和挑战,并提出了解决现有公平差距的切实可行的框架。文章强调了算法偏差、数据隐私以及人工智能在以人为本的教育中的作用等伦理问题。研究结果强调需要负责任地整合人工智能,以确保教育体系的普及性、公平性和创新性。
发布时间: 11/26/2024
查看原文