LLM2D

摘要

从用户界面 (UI) 动作序列中生成用户意图是全面理解 UI 的核心挑战。近年来，多模态大型语言模型 (MLLM) 的发展在这一领域取得了重大进展，但它们对大量模型参数、计算能力和高延迟的需求，使其不适用于需要轻量级、设备端解决方案、低延迟或高度隐私的场景。此外，高质量数据集的缺乏阻碍了此类轻量级模型的开发。为了应对这些挑战，我们提出了 UI-JEPA，这是一个新颖的框架，它利用掩蔽策略通过自监督学习从未标记数据中学习抽象 UI 嵌入，并结合为用户意图预测微调的 LLM 解码器。我们还引入了两个新的基于 UI 的多模态数据集，“野生意图” (IIW) 和“驯服意图” (IIT)，专为少量样本和零样本 UI 理解任务而设计。IIW 包含来自 219 个意图类别的 1.7K 个视频，而 IIT 包含来自 10 个类别的 914 个视频。我们为这些数据集建立了首个基线，表明使用 JEPA 风格目标学习的表示与 LLM 解码器相结合，可以实现与最先进的大型 MLLM 相匹配的用户意图预测，但注释和部署资源显著减少。根据意图相似度评分，UI-JEPA 在两个数据集上的平均性能分别比 GPT-4 Turbo 和 Claude 3.5 Sonnet 高出 10.0% 和 7.2%。值得注意的是，UI-JEPA 在 IIW 数据集中以 50.5 倍的计算成本降低和 6.6 倍的延迟改进实现了性能。这些结果强调了 UI-JEPA 的有效性，突出了其在轻量级、高性能 UI 理解方面的潜力。