LLM2D

摘要

我们以多模态分类问题的方式，从学术 PDF 文章中提取数学陈述及其证明，利用文本、字体特征和 PDF 的位图图像渲染作为不同的模态。我们提出了一种专门为提取定理式环境和证明而设计的模块化顺序多模态机器学习方法。这基于跨模态注意力机制来生成多模态段落嵌入，然后将其输入到我们新颖的多模态滑动窗口 Transformer 架构中，以捕获跨段落的顺序信息。我们的文档 AI 方法脱颖而出，因为它消除了对 OCR 预处理、推理期间的 LaTeX 源代码或专门损失的自定义预训练以理解跨模态关系的需求。与许多在单页级别运行的传统方法不同，我们的方法可以直接应用于多页 PDF，并无缝处理冗长的科学数学文档中常见的分页符。我们的方法证明了从单模态到多模态，最后通过在段落上整合顺序建模而获得的性能改进。