LLM2D
InterChat:利用多模态交互增强生成式视觉分析
InterChat: Enhancing Generative Visual Analytics using Multimodal Interactions
作者: Juntong Chen, Jiang Wu, Jiajing Guo, Vikram Mohanty, Xueming Li, Jorge Piazentin Ono, Wenbin He, Liu Ren, Dongyu Liu
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2503.04110v2

摘要

arXiv:2503.04110v2 通知类型: 交叉替换 摘要:大型语言模型(LLMs)和生成性视觉分析系统的崛起已经改变了数据驱动的洞察,但在准确解释用户分析和交互意图方面仍然存在重大挑战。尽管语言输入提供了灵活性,但它们往往缺乏精确度,使得复杂意图的表达变得低效、容易出错且耗时。为了解决这些局限性,我们通过对文献的回顾和初步的头脑风暴会议,探索了生成性视觉分析中多模态交互的设计空间。基于这些见解,我们引入了一种高度可扩展的工作流,该工作流结合了多个LLM代理用于意图推断和可视化生成。我们开发了InterChat,这是一种结合可视化元素直接操作与自然语言输入的生成性视觉分析系统。这种整合使得精确意图通信成为可能,并支持逐步、以视觉为导向的探索性数据分析。通过有效的提示工程,并结合上下文交互链接,以及直观的可视化和交互设计,InterChat 在用户交互与LLM驱动的可视化之间架起了一座桥梁,提升了解释性和可用性。广泛的评估,包括两个使用场景、一项用户研究和专家反馈,表明了InterChat 的有效性。结果表明,InterChat 在处理复杂视觉分析任务的准确性和效率方面取得了显著改进,突显了多模态交互重新定义生成性视觉分析中用户参与和分析深度的潜力。