LLM2D

arXiv 论文列表

作者: Hy Nguyen, Duy Khoa Pham, Srikanth Thudumu, Hung Du, Rajesh Vasa, Kon Mouzakis
arXiv:2501.14000v2 Announce Type: replace-cross 摘要:多层感知机(MLPs)的广泛应用往往依赖于在隐藏层所有节点中使用固定激活函数(例如,ReLU、Sigmoid、Tanh)。虽然在许多场景中有效,但这种统一性可能会限制网络捕捉复杂数据模式的能力。我们argue认为,在每个节点使用相同的激活函数是次优的,并提出在每个节点使用不同的激活函数以增加灵活性和适应性。为此,我们引入了Local Control Networks(LCNs),并利用B样条函数在每个节点上实现不同的激活曲线。我们的数学分析证明了LCNs相对于传统MLPs的优势。此外,我们证明了在某些情况下,更复杂的架构,如柯尔莫哥洛夫-阿诺德网络(KANs),是不必要的,LCNs可以是更高效的替代方案。在各种基准和数据集上的实验证明了我们的理论发现。在计算机视觉任务中,LCNs在MLPs上取得小幅改进,并在性能上比KANs高出约5%,同时比KANs更具计算效率。在基本机器学习任务中,LCNs在MLPs上表现出1%的改进,并在KANs上表现出0.6%的改进。对于符号公式表示任务,LCNs在性能上与KANs相当,两种架构都优于MLPs。我们的研究结果表明,在节点级别使用多样化的激活函数可以提高性能和效率。
发布时间: 4/28/2025
查看原文
作者: Hy Nguyen, Nguyen Hung Nguyen, Nguyen Linh Bao Nguyen, Srikanth Thudumu, Hung Du, Rajesh Vasa, Kon Mouzakis
arXiv:2501.13992v2 自动类型: replace-cross 摘要:层次可导航的小世界(HNSW)算法广泛用于近似最近邻(ANN)搜索,利用了可导航小世界图的原则。然而,该算法面临着一些局限性。首先是局部最优问题,这是由于算法的贪婪搜索策略所引起的,在每一步仅根据邻近性选择邻居,这通常导致集群断开连接。第二局限性是HNSW在高维数据集中难以实现对数复杂度,主要是由于每一层的完全遍历所导致的。为了克服这些局限性,我们提出了一种新颖的算法,该算法可以缓解局部最优和集群断开连接,同时提高构建速度,保持推理速度。第一个组件是基于LID的插入机制的双分支HNSW结构,允许从多个方向遍历,从而提高了离群节点的捕获能力、增强了集群连接性、加快了构建速度并减少了局部极小值的风险。第二个组件结合了一种桥梁构建技术,它绕过冗余的中间层,保持推理速度并弥补了双分支结构引入的额外计算成本。在各种基准测试和数据集上的实验表明,我们的算法在准确性和速度上均优于原始的HNSW。我们在计算机视觉(CV)和自然语言处理(NLP)六个数据集上进行了评估,在NLP任务中获得了18%的召回率提升,在CV任务中获得了高达30%的召回率提升,同时将构建时间减少了最多20%,并保持了推理速度。我们的算法没有表现出任何权衡。消融研究显示,基于LID的插入机制对性能的影响最大,其次是双分支结构和桥梁构建组件。
发布时间: 4/28/2025
查看原文
作者: Haoyu Xie, Haoxuan Li, Chunyuan Zheng, Haonan Yuan, Guorui Liao, Jun Liao, Li Liu
arXiv:2501.10917v2 通知类型: 替换-交叉 摘要:穿戴式人体活动识别(WHAR)是泛在计算领域的研究热点。多传感器同步测量已被证明在WHAR中比使用单一传感器更为有效。然而,现有的WHAR方法使用共享的卷积核对每个传感器变量进行不分类型的时域特征提取,未能有效地捕捉内传感器和跨传感器变量的空间-时域关系。我们提出了一种DecomposeWHAR模型,包括分解阶段和融合阶段,以更好地建模模态变量之间的关系。分解阶段通过改进的深度可分离卷积创建每个内传感器变量的高维表示,以捕捉局部时域特征并保留其独特的特征。融合阶段首先捕捉内传感器变量之间的关系,然后在通道和变量层面融合它们的特征。长时依赖关系使用状态空间模型(SSM)建模,后期通过自我注意机制动态捕捉跨传感器交互,强调传感器间的空间相关性。我们的模型在三个广泛使用的WHAR数据集中表现出色,显著优于最先进的模型,同时保持可接受的计算效率。
发布时间: 4/28/2025
查看原文
作者: Shane Babcock, Carter Benson, Giacomo De Colle, Sydney Cohen, Alexander D. Diehl, Ram A. N. R. Challa, Ray Mavrovich, Joshua Billig, Anthony Huffman, Yongqun He, John Beverley
arXiv:2501.01454v3 更新类型: 替换-交叉 摘要:传染病仍然是一个关键性的全球健康挑战,而标准化本体论的整合在管理相关数据方面发挥着至关重要的作用。传染病本体论(IDO)及其扩展,如冠状病毒传染病本体论(CIDO),对于组织和传播与传染病相关的信息至关重要。COVID-19大流行凸显了更新IDO及其病毒特异性扩展的必要性。对于细菌、真菌和寄生虫传染病特异性的扩展也需更新。我们采用“中心和分支”的方法来生成针对路径微生物特异性的IDO扩展:病毒传染病本体论(VIDO)、细菌传染病本体论(BIDO)、真菌性传染病本体论(MIDO)以及寄生虫传染病本体论(PIDO)。路径微生物特异性参考本体论的创建推动了IDO生态系统中传染病数据的模块化和重用。未来工作将集中在进一步完善这些本体论、创建新的扩展以及基于它们开发应用程序本体论,以适应持续努力标准化生物学和生物医学术语的需求,从而改进数据共享和分析。
发布时间: 4/28/2025
查看原文
作者: Nikolaos Bousias, Stefanos Pertigkiozoglou, Kostas Daniilidis, George Pappas
arXiv:2501.01136v2 宣告类型: replace-cross 摘要:多智能体强化学习已成为一种强大的框架,使智能体能够学习复杂的协调行为,但面临泛化、可扩展性和样本效率方面的持续挑战。近期的进步试图通过在策略中嵌入系统的内在对称性来缓解这些问题。然而,大多数动力学系统几乎没有可以利用的内在对称性。本文提出了一种新的框架,用于将外部对称性嵌入到多智能体系统的动力学中,从而使使用对称性增强的方法能够处理缺乏足够内在对称性的系统,将等变学习的应用范围扩展到各种各样的多智能体强化学习(MARL)问题。本框架的核心是组等变Graphormer,这是一种专门针对分布式集群任务设计的组模块化架构。在一群打破对称性的四旋翼无人机上的大量实验验证了我们方法的有效性,展示了其在提高泛化能力和零样本可扩展性方面的潜力。我们的方法在多种场景和不同群集规模下,显著降低了碰撞率并提高了任务成功率。
发布时间: 4/28/2025
查看原文
作者: Witold Wydma\'nski, Ulvi Movsum-zada, Jacek Tabor, Marek \'Smieja
arXiv:2501.00057v2 通知类型: 取代-跨模态 摘要:尽管深度学习模型在自然语言处理和计算机视觉方面取得了巨大的成功,但在表格数据方面却没有观察到可比的进步,而表格数据仍然是生物、工业和金融应用中最常见的数据类型。特别是,将大规模预训练模型应用于定义在小规模表格数据集上的下游任务存在挑战。为了解决这个问题,我们提出了VisTabNet——一种跨模态迁移学习方法,该方法允许使用预训练权重适应 Vision Transformer (ViT) 处理表格数据。通过将表格输入投影为 ViT 可接受的 patch 表嵌入,可以直接将预训练的 Transformer 编码器应用于表格输入。这种方法消除了为处理表格数据设计合适架构的概念性成本,同时减少了从头训练模型的计算成本。在多个小规模表格数据集(样本数少于 1k)上的实验结果表明,VisTabNet 的优越性,其表现优于传统集成方法和最近的深度学习模型。所提出的方法超越了传统的迁移学习实践,展示了预训练图像模型可以转移到解决表格问题的可能性,从而扩展了迁移学习的边界。我们共享了我们的示例实现,一个可以在 https://github.com/wwydmanski/VisTabNet 查看的 GitHub 仓库。
发布时间: 4/28/2025
查看原文
作者: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras
arXiv:2412.11704v3 宣布类型: replace-cross 摘要:词汇扩展(VE)是通过添加新词元并继续在目标数据上进行预训练,来实现大规模语言模型(LLMs)语言适应的常规方法。虽然这种方法对基于未标记数据训练的基础模型有效,但它为通过标记对话数据训练的聊天模型带来了挑战。直接使用VE对后者的目标未标记数据进行适应可能导致忘记聊天能力。虽然理想情况下,目标聊天数据通常是不可用或创建成本高昂的低资源语言,而机器翻译的替代品也并非总是有效的。为了解决这一问题,先前的研究提出使用同一家庭的基础模型和聊天模型。该方法首先使用VE对基础LLM进行目标未标记数据的适应,然后通过添加源自源基础模型和聊天模型权重差异的聊天向量(CV)将其转换为聊天模型。我们提出了ElChat,一种新的聊天LLM的语言适应方法,该方法可以直接在目标未标记数据上适应聊天模型,而无需基础模型。ElChat通过注入源聊天模型的信息来引发聊天能力。与CV相比,ElChat提供了更强大和竞争力的目标语言和安全性性能,同时在英语、聊天和指令跟随能力方面表现出优越性。
发布时间: 4/28/2025
查看原文
arXiv:2412.04476v3 宣告类型:替换-交叉 摘要:随着大型语言模型(LLMs)越来越多地参与涉及伦理和社会利益的任务,一个关键问题出现了:它们是否表现出一种新兴的“道德心智”——即一种引导其决策的一致的道德偏好结构——以及这种结构在模型之间共享的程度如何?为了调查这个问题,我们应用了揭示偏好理论中的工具,对近40个主要的LLMs进行了测试,向每个模型呈现了跨越五个伦理推理基本维度的许多结构化道德难题。使用概率理性测试,我们发现每个主要提供者至少有一个模型的行为与相对稳定且一致的道德偏好相符,仿佛受到了潜在的效用函数的引导。然后我们估计了这些效用函数,发现大多数模型集中在中立的道德立场上。为了进一步表征异质性,我们采用了非参数置换方法,基于揭示的偏好模式构建了概率相似性网络。结果表明,LLMs的道德推理存在共享的核心部分,但也存在显著的差异:一些模型在不同视角上表现出灵活的推理,而其他模型则坚持更为僵硬的伦理概况。这些发现为评估LLMs的道德一致性提供了新的实证视角,并为跨AI系统进行伦理对齐的基准测试提供了框架。
发布时间: 4/28/2025
查看原文
作者: S P Sharan, Minkyu Choi, Sahil Shah, Harsh Goel, Mohammad Omama, Sandeep Chinchali
arXiv:2411.16718v5 宣布类型: replace-cross 摘要:近期在文本生成视频模型如Sora、Gen-3、MovieGen和CogVideoX方面取得的进展正在推动合成视频生成的边界,这些模型已在机器人学、自主驾驶和娱乐等领域得到应用。随着这些模型的普及,各种评估生成视频质量的指标和基准也在出现。然而,这些指标强调了视觉质量和流畅性,而忽视了时间一致性和文本到视频的对齐,这对安全关键应用至关重要。为了解决这一差距,我们引入了NeuS-V,一种新的合成视频评价指标,使用神经符号形式验证技术严格评估文本到视频的对齐。我们的方法首先将提示转换为正式定义的时间逻辑(TL)规范,然后将生成的视频翻译成自动机表示。接下来,通过正式检查视频自动机与TL规范来评估文本到视频的对齐。此外,我们提出了一个时间扩展的提示数据集,以评估最先进的视频生成模型与我们的基准的性能。我们发现,NeuS-V在与现有指标相比时,与人类评价的相关性提高了5倍以上。我们的评估进一步表明,当前的视频生成模型在这些时间复杂的提示上表现不佳,突显了未来改进文本到视频生成能力的需求。
发布时间: 4/28/2025
查看原文
作者: Vitalis Vosylius, Edward Johns
arXiv:2411.12633v2 宣告类型: replace-cross 摘要: 在大规模变压器表现出强大的上下文学习能力之后,内部上下文模仿学习(In-Context Imitation Learning, ICIL)为机器人技术提供了一种有前途的机会。我们引入了Instant Policy,该方法仅通过一个或两个示范即可学会新任务(无需进一步训练),并通过两个关键组件实现了ICIL。首先,我们通过图表示引入了归纳偏置,并将ICIL建模为具有学习扩散过程的图生成问题,从而使系统能够对示范、观察和动作进行结构化的推理。其次,我们展示了通过使用伪示范——在模拟中生成的任意轨迹——可以作为一种几乎无限的训练数据池来训练此类模型。模拟与实际实验表明,Instant Policy能够快速学会各种日常机器人任务。我们还展示了它如何可以作为跨体态和零样本转移至语言定义任务的基础。代码和视频可以在 https://www.robot-learning.uk/instant-policy 获取。
发布时间: 4/28/2025
查看原文