LLM2D

摘要

arXiv:2505.10043v1 宣告类型: cross 摘要：图表对于数据挖掘和决策至关重要。文本到图表检索系统在商业智能（BI）中变得越来越重要，用户需要找到与其分析需求相关的图表。这些需求可以分为具体的查询（明确规定的）和模糊的查询（更具探索性）——这两种查询都需要理解图表的语义和上下文。然而，现有的文本到图表检索解决方案往往无法捕捉到图表的语义内容和上下文信息，主要原因是对图表缺少全面的元数据（或语义洞察）。为了弥补这一不足，我们提出了一种训练数据开发管道，该管道能够自动为图表合成层次结构的语义洞察，涵盖视觉模式（以视觉为导向）、统计属性（以统计为导向）和实际应用（以任务为导向），从而为69,166张图表生成了207,498条语义洞察。基于这些信息，我们训练了一个基于CLIP的模型——ChartFinder，以更好地理解图表进行文本到图表检索。我们的方法在训练过程中利用丰富的语义洞察，开发了一个能够理解图表的视觉和语义方面的模型。为了评估文本到图表检索性能，我们为该任务构建了第一个基准——CRBench，其中包括21,862张图表和326条来自实际BI应用的真实文本查询，以及由众包工人验证的正确标签。实验表明，在各种应用场景下，ChartFinder在文本到图表检索任务中显著超过了现有方法。对于精确查询，ChartFinder在NDCG@10上的表现高达66.9%，比最先进的模型高出11.58%。在模糊查询任务中，我们的方法也显示出了持续的改进，平均指标提升了约5%。