摘要
arXiv:2504.13700v1 交叉公告类型:交叉学科
摘要:近年来,大规模语言模型(LLMs)在通过简单的自然语言命令自动化可视化创作过程方面显示出巨大的潜力。然而,使用自然语言指示LLMs在传达可视化意图方面存在精度和表现力的限制,导致误解和耗时的迭代。为了解决这些局限性,我们进行了一项实证研究,以了解在可视化创作上下文中,LLMs如何解读模糊或不完整的文本提示,并识别导致LLMs误解用户意图的条件。根据研究发现,我们引入了视觉提示作为文本提示的补充输入类型,以澄清用户意图并提高LLMs的解读能力。为了探索多模态提示在可视化创作中的潜力,我们设计了VisPilot,使用户能够使用包括文本、草图和对现有可视化直接操作的多模态提示轻松创建可视化。通过两个案例研究和受控用户研究,我们证明,与仅使用文本提示的方法相比,VisPilot为用户提供了在不降低整体任务效率的情况下创建可视化的一种更直观的方式。此外,我们分析了不同可视化任务中文本和视觉提示的影响。我们的发现突出了在可视化创作中使用多模态提示以提高LLMs的可用性的重要性。我们讨论了未来可视化系统的设计理念,并提供了关于多模态提示如何增强创意可视化任务中的人工智能协作的见解。所有材料均可在https://OSF.IO/2QRAK 查看。