LLM2D
使用语言模型进行场景理解的边缘端摄像头控制
Camera Control at the Edge with Language Models for Scene Understanding
作者: Alexiy Buynitsky, Sina Ehsani, Bhanu Pallakonda, Pragyana Mishra
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06402v1

摘要

arXiv:2505.06402v1 声明类型: cross 摘要: 在本文中,我们提出了优化提示统一系统 (OPUS),这是一种框架,利用大型语言模型 (LLM) 控制全景平移缩放 (PTZ) 摄像头,提供对自然环境的上下文理解。为了实现这一目标,OPUS 系统通过从高级摄像头控制 API 中生成关键词,并通过在合成数据上进行监督微调 (SFT) 来将大型封闭源语言模型的知识转移到较小的模型上,从而提高成本效益。这使得在边缘部署时保持与类似 GPT-4 的大型模型相当的性能。OPUS 通过将多个摄像头的数据转换为文本描述供语言模型使用,增强了环境感知,从而消除了对专用感觉标记的需求。在基准测试中,我们的方法显著优于传统语言模型技术和更复杂的提示方法,相比高级技术实现了 35% 的性能提升,并且与 Gemini Pro 等封闭源模型相比,任务准确性高出 20%。该系统证明了 OPUS 通过直观的自然语言接口简化 PTZ 摄像头操作的能力。这种方法消除了显式编程的需要,并提供了一种与摄像头系统交互的对话方式,代表了用户如何控制和利用 PTZ 摄像机技术的重大进步。