LLM2D
探索将键值注意机制集成到纯Transformer和混合Transformer中以实现语义分割
Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation
作者: DeShin Hwa, Tobias Holmes, Klaus Drechsler
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18862v1

摘要

arXiv:2503.18862v1 交叉公告类型:transformer架构引入的挑战 摘要:尽管卷积神经网络(CNNs)长期以来被视为图像处理的标准,Transformer架构的引入已经挑战了这一地位。虽然在图像分类和分割任务中取得了优异的结果,但Transformer仍然不可避免地依赖于大规模的训练数据集,并且计算成本较高。一种新引入的Transformer变体——KV Transformer,在合成、NLP和图像分类任务中显示出有前途的结果,同时减少了复杂性和内存使用。特别是在需要局部推理的应用场景,如医学筛查应用中,这一点尤为重要。我们力求进一步评估KV Transformers在语义分割任务中的优越性,特别是在医学成像领域。通过直接对比传统和KV变体的相同基架构,我们提供了关于减少模型复杂性带来的实际权衡进一步的洞见。我们观察到参数数量和乘加操作有显著减少,而在直接与QKV实现进行比较时,大多数KV变体模型的性能相似。