LLM2D
KANICE:具有交互卷积单元的Kolmogorov-Arnold网络
KANICE: Kolmogorov-Arnold Networks with Interactive Convolutional Elements
作者: Md Meftahul Ferdaus, Mahdi Abdelguerfi, Elias Ioup, David Dobson, Kendall N. Niles, Ken Pathak, Steven Sloan
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.17172v1

摘要

我们提出了一种名为KANICE(具有交互卷积元素的Kolmogorov-Arnold网络)的新型神经网络架构,它结合了卷积神经网络(CNN)和Kolmogorov-Arnold网络(KAN)原理。KANICE将交互式卷积块(ICB)和KAN线性层集成到CNN框架中。这利用了KAN的通用逼近能力和ICB的自适应特征学习能力。KANICE能够捕捉复杂非线性数据关系,同时能够基于Kolmogorov-Arnold表示定理进行动态的、依赖于上下文的特征提取。我们在四个数据集(MNIST、Fashion-MNIST、EMNIST和SVHN)上评估了KANICE,并将其与标准CNN、CNN-KAN混合模型和ICB变体进行了比较。KANICE始终优于基线模型,在MNIST数据集上达到99.35%的准确率,在SVHN数据集上达到90.05%的准确率。此外,我们还介绍了KANICE-mini,这是一种为提高效率而设计的紧凑型变体。全面的消融研究表明,KANICE-mini在参数显著减少的情况下,实现了与KANICE相当的性能。KANICE-mini在SVHN数据集上取得了90.00%的准确率,参数数量为2,337,828,而KANICE的参数数量为25,432,000。这项研究突出了基于KAN的架构在图像分类任务中平衡性能和计算效率的潜力。我们的工作促进了自适应神经网络的研究,将数学定理融入深度学习架构,并探讨了模型复杂度和性能之间的权衡,从而推动了计算机视觉和模式识别领域的发展。本文的源代码已通过我们的GitHub仓库(https://github.com/m-ferdaus/kanice)公开访问。