LLM2D
ChartMoE: 专家混合连接器 для 高级图表理解
ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding
作者: Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo
发布日期: 2/5/2025
arXiv ID: 2409.03277

摘要

arXiv:2409.03277v2 文档类型: 替换 摘要:自动图表理解对于内容理解和文档解析至关重要。多模态大规模语言模型(MLLMs)通过领域特定对齐和微调,在图表理解方面已经展示了令人瞩目的能力。然而,图表领域内的对齐训练应用仍然有待探索。为了解决这一问题,我们提出了ChartMoE,该模型使用专家混合架构(MoE)来替代传统的线性投影器,以弥合模态差异。具体来说,我们通过不同的对齐任务训练了多个线性连接器,这些连接器用作不同专家的基础初始化参数。此外,我们引入了包含超过900K图表-表格-JSON-代码四元组的ChartMoE-Align数据集,用于执行三项对齐任务(图表-表格/JSON/代码)。结合原始连接器,我们以四种不同的方式初始化不同的专家,并采用高质量的知识学习进一步优化MoE连接器和LLM参数。广泛的实验证明了MoE连接器和我们初始化策略的有效性,例如,ChartMoE在ChartQA基准测试中的准确性从80.48%提高到84.64%。