LLM2D
ChartMoE: 专家混合连接器以实现高级图表理解
ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding
作者: Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2409.03277v2

摘要

arXiv:2409.03277v2 宣告类型: 替换 摘要:自动图表理解对于内容理解和文档解析至关重要。多模态大型语言模型(MLLMs)已经在特定领域对齐和微调的基础上展示了图表理解的非凡能力。然而,图表领域内的对齐训练应用仍处于探索阶段。为了解决这一问题,我们提出了ChartMoE,它使用专家混合(MoE)架构来替换传统的线性投影器以解决模态差异问题。具体地,我们通过不同的对齐任务训练多个线性连接器,这些连接器用作不同专家的基础初始化参数。此外,我们引入了包含超过90万个图表-表格-JSON-代码四元组的ChartMoE-Align数据集以执行三种对齐任务(图表-表格/JSON/代码)。结合原始连接器,我们以四种不同的方式初始化不同的专家,并采用高质量的知识学习进一步优化MoE连接器和LLM参数。广泛的实验展示了MoE连接器和我们初始化策略的有效性,例如,ChartMoE在ChartQA基准上的准确率从原来的80.48%提高到84.64%。