LLM2D
InkFM:全页在线手写笔记理解的基础模型
InkFM: A Foundational Model for Full-Page Online Handwritten Note Understanding
作者: Anastasiia Fadeeva, Vincent Coriou, Diego Antognini, Claudiu Musat, Andrii Maksai
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23081v1

摘要

arXiv:2503.23081v1 类型: cross 摘要: 平板和触控笔在记笔记方面越来越受欢迎。为了优化这一体验并确保流畅高效的流程,开发能够准确理解和解释数字手写笔记内容的方法至关重要。我们提出了一个名为InkFM的基础模型,用于分析整页的手写内容。该模型在多种任务上进行了训练,提供了一种独特的功能组合:识别28种不同的书写体中的文本、数学表达式识别以及将页面分割成独立元素,如文本和图画。我们的结果表明,这些任务可以在单一模型中有效地统一在一起,实现从一开始就超越公共基准(如docTR)的顶级文本行分割质量。在公共数据集上对基础模型进行精细或LoRA调优进一步提高了页面分割的质量,并在DeepWriting、CASIA、SCUT和Mathwriting数据集上实现了顶级的文本识别性能,在QuickDraw数据集上实现了顶级的手绘分类性能。InkFM的这种适应性为其应用于手写输入提供了强大的起点。