LLM2D

摘要

arXiv:2502.14780v1 Announce Type: cross 摘要：随着AR、VR和配备强大摄像头的现代智能手机成为人类与计算机通信的主要接口，有效的且隐私保护的多模态交互变得至关重要。现有的强大视觉-语言模型（VLMs）支持多模态交互通常依赖于基于云的处理，这引发了关于(1) 通过将敏感视觉数据传输到服务器而导致的视觉隐私问题，以及(2) 它们受限的实时设备端可用性的问题。本文探讨了视觉指令重写这一新颖的方法，该方法将多模态指令转换为纯文本命令，从而使轻量级的设备端指令重写VLM（参数量为250M）与现有的对话AI系统无缝集成，增强视觉数据隐私。为实现这一目标，我们提供了一个涵盖14个领域的超过39,000个示例的数据集，并开发了一个紧凑的VLM，该VLM基于图像字幕数据集进行预训练，并针对指令重写进行了微调。通过自然语言生成（NLG）指标（如BLEU、METEOR和ROUGE）评估以及语义解析分析，实验结果证明，即使是该模型的量化版本（存储 footprint 小于500MB）也能实现有效的指令重写，从而使面向隐私的多模态AI应用成为可能。