LLM2D

摘要

大型语言模型 (LLMs) 在各个领域展现出非凡的能力。然而，将 LLMs 用于无处不在的传感应用仍然具有挑战性，因为现有的文本提示方法在处理长传感器数据序列时表现出显著的性能下降。我们提出了一种使用多模态 LLMs (MLLMs) 对传感器数据进行视觉提示的方法。我们设计了一个视觉提示，引导 MLLMs 利用可视化的传感器数据以及目标感官任务描述。此外，我们还引入了一个可视化生成器，它可以自动创建针对给定感官任务的最佳可视化，从而无需事先的特定任务知识。我们在涉及四种传感模态的九项感官任务中评估了我们的方法，与基于文本的提示相比，平均准确率提高了 10%，令牌成本降低了 15.8 倍。我们的研究结果突出了视觉提示与 MLLMs 在各种感官任务中的有效性和成本效益。源代码可在 https://github.com/diamond264/ByMyEyes 获得。