摘要
从用户界面 (UI) 动作序列中生成用户意图是全面理解 UI 的核心挑战。近年来,多模态大型语言模型 (MLLM) 的发展在这一领域取得了重大进展,但它们对大量模型参数、计算能力和高延迟的需求,使其不适用于需要轻量级、设备端解决方案、低延迟或高度隐私的场景。此外,高质量数据集的缺乏阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,这是一个新颖的框架,它利用掩蔽策略通过自监督学习从未标记数据中学习抽象 UI 嵌入,并结合为用户意图预测微调的 LLM 解码器。我们还引入了两个新的基于 UI 的多模态数据集,“野生意图” (IIW) 和“驯服意图” (IIT),专为少量样本和零样本 UI 理解任务而设计。IIW 包含来自 219 个意图类别的 1.7K 个视频,而 IIT 包含来自 10 个类别的 914 个视频。我们为这些数据集建立了首个基线,表明使用 JEPA 风格目标学习的表示与 LLM 解码器相结合,可以实现与最先进的大型 MLLM 相匹配的用户意图预测,但注释和部署资源显著减少。根据意图相似度评分,UI-JEPA 在两个数据集上的平均性能分别比 GPT-4 Turbo 和 Claude 3.5 Sonnet 高出 10.0% 和 7.2%。值得注意的是,UI-JEPA 在 IIW 数据集中以 50.5 倍的计算成本降低和 6.6 倍的延迟改进实现了性能。这些结果强调了 UI-JEPA 的有效性,突出了其在轻量级、高性能 UI 理解方面的潜力。