LLM2D
ChartCitor:细粒度图表视觉归因的多代理框架
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution
作者: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00989v1

摘要

arXiv:2502.00989v1 Announce Type: cross 摘要:大型语言模型(LLMs)可以执行图表问答任务,但往往生成未经验证的虚构响应。现有的答案归因方法在将响应与源图表关联时遇到困难,因为存在有限的视觉语义背景、复杂的视觉文本对齐要求以及在复杂布局中预测边界框的困难。我们提出了ChartCitor,这是一种多智能体框架,通过在图表图像中识别支持证据来提供精细的边界框引用。该系统协调LLM智能体执行图表到表格提取、答案重写、表格扩充、通过预过滤和重新排序检索证据以及表格到图表映射。ChartCitor在不同类型的图表上优于现有基线。定性的用户研究显示,ChartCitor通过提高LLM辅助图表问答的解释性,帮助增强了用户对生成式AI的信任,并使专业人士更加高效。