LLM2D

摘要

数据可视化 (DV) 是提高大数据洞察力传递效率的基础工具，已在现有数据驱动型世界中得到广泛认可。DV 中的任务自动化，例如将自然语言查询转换为可视化（即文本到可视化）、从可视化生成解释（即可视化到文本）、以自由形式回答与 DV 相关的提问（即 FeVisQA）以及解释表格数据（即表格到文本），对于推动该领域发展至关重要。尽管具有潜力，但预训练语言模型 (PLM)（如 T5 和 BERT）在 DV 中的应用受到高成本和处理跨模态信息的挑战的限制，导致关于 PLM 用于 DV 的研究很少。我们引入了 DataVisT5，这是一种针对 DV 的新型 PLM，它通过混合目标预训练和多任务微调策略增强了 T5 架构，整合了文本和 DV 数据集以有效解释跨模态语义。在公共数据集上的大量评估表明，DataVisT5 在各种与 DV 相关的任务上始终优于当前最先进的模型。我们预计 DataVisT5 不仅会激发对垂直 PLM 的进一步研究，还会扩展 PLM 的应用范围。