LLM2D
利用PDF数据提升日语大型多模态模型
Harnessing PDF Data for Improving Japanese Large Multimodal Models
作者: Jeonghun Baek, Akiko Aizawa, Kiyoharu Aizawa
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14778v1

摘要

arXiv:2502.14778v1 宣传类型:交叉 摘要:大型多模态模型(LMMs)在英语中展现出了出色的表现,但在日语中的有效性受到限制,主要是由于高质量训练数据的缺乏。当前的日语LMMs通常依赖于翻译自英语的数据集,这限制了它们捕捉日本特有的文化知识的能力。为了解决这个问题,我们探索了将日语PDF数据作为训练资源的潜力,这是一个尚未充分利用的领域。我们介绍了一种完全自动化的管道,该管道利用预训练模型通过布局分析、OCR和视觉语言配对从PDF中提取图像-文本对,从而避免了手动标注的需求。此外,我们还从提取的图像-文本对中构建指令数据,以丰富训练数据。为了评估来自PDF的数据的有效性,我们训练了日语LMMs,并在日语LMM基准测试上评估了它们的性能。我们的结果显示,在Heron-Bench上的性能提升了3.9%至13.8%。进一步的分析强调了PDF衍生数据对不同因素的影响,如模型大小和语言模型,增强了其作为日语LMMs多模态资源的价值。我们计划在论文被接受后公开源代码和数据。