LLM2D

摘要

arXiv:2502.00989v1 Announce Type: cross 摘要：大型语言模型（LLMs）可以执行图表问答任务，但往往生成未经验证的虚构响应。现有的答案归因方法在将响应与源图表关联时遇到困难，因为存在有限的视觉语义背景、复杂的视觉文本对齐要求以及在复杂布局中预测边界框的困难。我们提出了ChartCitor，这是一种多智能体框架，通过在图表图像中识别支持证据来提供精细的边界框引用。该系统协调LLM智能体执行图表到表格提取、答案重写、表格扩充、通过预过滤和重新排序检索证据以及表格到图表映射。ChartCitor在不同类型的图表上优于现有基线。定性的用户研究显示，ChartCitor通过提高LLM辅助图表问答的解释性，帮助增强了用户对生成式AI的信任，并使专业人士更加高效。