LLM2D

摘要

arXiv:2503.18862v1 交叉公告类型：transformer架构引入的挑战摘要：尽管卷积神经网络（CNNs）长期以来被视为图像处理的标准，Transformer架构的引入已经挑战了这一地位。虽然在图像分类和分割任务中取得了优异的结果，但Transformer仍然不可避免地依赖于大规模的训练数据集，并且计算成本较高。一种新引入的Transformer变体——KV Transformer，在合成、NLP和图像分类任务中显示出有前途的结果，同时减少了复杂性和内存使用。特别是在需要局部推理的应用场景，如医学筛查应用中，这一点尤为重要。我们力求进一步评估KV Transformers在语义分割任务中的优越性，特别是在医学成像领域。通过直接对比传统和KV变体的相同基架构，我们提供了关于减少模型复杂性带来的实际权衡进一步的洞见。我们观察到参数数量和乘加操作有显著减少，而在直接与QKV实现进行比较时，大多数KV变体模型的性能相似。