LLM2D
边缘网络中的视觉-语言模型:一项综合调研
Vision-Language Models for Edge Networks: A Comprehensive Survey
作者: Ahmed Sharshar, Latif U. Khan, Waseem Ullah, Mohsen Guizani
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07855v1

摘要

arXiv:2502.07855v1 类别:交叉 摘要:视觉大型语言模型(VLMs)结合了视觉理解与自然语言处理能力,使得图像字幕、视觉问答和视频分析等任务成为可能。虽然VLMs在自动驾驶、智能监控和医疗保健等多个领域展示了令人印象深刻的能力,但由于处理能力、内存和能源的限制,它们在资源受限的边缘设备上的部署依然富有挑战性。本文综述了最近在优化VLMs以适应边缘环境方面的进展,重点关注模型压缩技术,包括剪枝、量化、知识蒸馏以及增强效率的专用硬件解决方案。我们详细讨论了高效训练和微调方法、边缘部署挑战和隐私问题。此外,我们还探讨了轻量级VLMs在医疗保健、环境监测和自主系统等多个领域的广泛应用,以及它们日益增长的影响。通过强调关键设计策略、当前挑战并提出未来发展方向的建议,本文旨在激发进一步研究VLMs的实际部署,最终使先进的AI技术在资源受限的环境中普及。