LLM2D

摘要

arXiv:2505.06402v1 声明类型: cross 摘要: 在本文中，我们提出了优化提示统一系统 (OPUS)，这是一种框架，利用大型语言模型 (LLM) 控制全景平移缩放 (PTZ) 摄像头，提供对自然环境的上下文理解。为了实现这一目标，OPUS 系统通过从高级摄像头控制 API 中生成关键词，并通过在合成数据上进行监督微调 (SFT) 来将大型封闭源语言模型的知识转移到较小的模型上，从而提高成本效益。这使得在边缘部署时保持与类似 GPT-4 的大型模型相当的性能。OPUS 通过将多个摄像头的数据转换为文本描述供语言模型使用，增强了环境感知，从而消除了对专用感觉标记的需求。在基准测试中，我们的方法显著优于传统语言模型技术和更复杂的提示方法，相比高级技术实现了 35% 的性能提升，并且与 Gemini Pro 等封闭源模型相比，任务准确性高出 20%。该系统证明了 OPUS 通过直观的自然语言接口简化 PTZ 摄像头操作的能力。这种方法消除了显式编程的需要，并提供了一种与摄像头系统交互的对话方式，代表了用户如何控制和利用 PTZ 摄像机技术的重大进步。