LLM2D

摘要

arXiv:2502.07855v1 类别:交叉摘要：视觉大型语言模型（VLMs）结合了视觉理解与自然语言处理能力，使得图像字幕、视觉问答和视频分析等任务成为可能。虽然VLMs在自动驾驶、智能监控和医疗保健等多个领域展示了令人印象深刻的能力，但由于处理能力、内存和能源的限制，它们在资源受限的边缘设备上的部署依然富有挑战性。本文综述了最近在优化VLMs以适应边缘环境方面的进展，重点关注模型压缩技术，包括剪枝、量化、知识蒸馏以及增强效率的专用硬件解决方案。我们详细讨论了高效训练和微调方法、边缘部署挑战和隐私问题。此外，我们还探讨了轻量级VLMs在医疗保健、环境监测和自主系统等多个领域的广泛应用，以及它们日益增长的影响。通过强调关键设计策略、当前挑战并提出未来发展方向的建议，本文旨在激发进一步研究VLMs的实际部署，最终使先进的AI技术在资源受限的环境中普及。