LLM2D

摘要

arXiv:2502.14778v1 宣传类型：交叉摘要：大型多模态模型（LMMs）在英语中展现出了出色的表现，但在日语中的有效性受到限制，主要是由于高质量训练数据的缺乏。当前的日语LMMs通常依赖于翻译自英语的数据集，这限制了它们捕捉日本特有的文化知识的能力。为了解决这个问题，我们探索了将日语PDF数据作为训练资源的潜力，这是一个尚未充分利用的领域。我们介绍了一种完全自动化的管道，该管道利用预训练模型通过布局分析、OCR和视觉语言配对从PDF中提取图像-文本对，从而避免了手动标注的需求。此外，我们还从提取的图像-文本对中构建指令数据，以丰富训练数据。为了评估来自PDF的数据的有效性，我们训练了日语LMMs，并在日语LMM基准测试上评估了它们的性能。我们的结果显示，在Heron-Bench上的性能提升了3.9%至13.8%。进一步的分析强调了PDF衍生数据对不同因素的影响，如模型大小和语言模型，增强了其作为日语LMMs多模态资源的价值。我们计划在论文被接受后公开源代码和数据。