LLM2D

摘要

基于Transformer的目标重识别综述：方法、基准和未来方向。目标重识别旨在跨不同时间和场景识别特定物体，是计算机视觉领域一个广泛研究的任务。长期以来，该领域主要由基于卷积神经网络的深度学习技术驱动。近年来，视觉Transformer的出现激发了许多研究深入探究基于Transformer的目标重识别，不断刷新性能记录，并在目标重识别领域取得显著进展。Transformer提供了一种强大、灵活且统一的解决方案，以无与伦比的效率满足各种目标重识别任务的需求。本文对基于Transformer的目标重识别进行了全面综述和深入分析。通过将现有工作分类为基于图像/视频的目标重识别、数据/标注有限的目标重识别、跨模态目标重识别和特殊目标重识别场景，我们彻底阐明了Transformer在解决这些领域众多挑战中所展现的优势。考虑到趋势性的无监督目标重识别，我们提出了一种新的Transformer基线UntransReID，在单模态/跨模态任务上都取得了最先进的性能。对于尚未充分探索的动物目标重识别，我们设计了一个标准化的实验基准，并进行了大量的实验，以探索Transformer在此任务中的适用性并促进未来的研究。最后，我们讨论了大型基础模型时代一些重要但尚未充分研究的开放性问题，我们相信这将成为该领域研究人员的新手册。一个定期更新的网站将提供在https://github.com/mangye16/ReID-Survey。