LLM2D
利用视觉语言模型进行汽车UI的视觉定位与分析
Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI
作者: Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05895v1

摘要

arXiv:2505.05895v1 类别: cross 摘要: 现代汽车娱乐信息系统需要智能和适应性强的解决方案来处理频繁的用户界面(UI)更新和多样的设计变体。我们提出了一种视觉-语言框架,用于理解和交互式操作汽车娱乐信息系统,从而实现不同UI设计之间的无缝适应。为了进一步支持该领域的研究,我们发布了AutomotiveUI-Bench-4K,这是一个包含998张图像和4,208个注释的开源数据集。此外,我们还介绍了一种合成数据流水线来生成训练数据。我们使用低秩适应(LoRa)并对Molmo-7B模型进行了微调,结合了我们的流水线生成的推理、视觉定位和评估能力。微调后的评估大型动作模型(ELAM)在AutomotiveUI-Bench-4K(模型和数据集可在Hugging Face上获得)中表现出色,并展示了强大的跨域泛化能力,包括比基线模型在ScreenSpot上的性能提高了5.2%。值得注意的是,尽管我们的方法主要用于汽车娱乐信息系统领域进行训练,但在ScreenSpot上仍实现了80.4%的平均准确率,这一成绩几乎或甚至超过了专门针对桌面、移动和网页的ShowUI等模型。本研究探讨了数据收集和随后的微调如何推动汽车UI理解与交互的AI驱动进步。所应用的方法成本效益高,并且微调后的模型可以部署在消费级GPU上。