摘要
arXiv:2504.18948v1 宣告类型: 新型
摘要: 开发项目的设计、监督和评估可能涉及关于项目活动的基于现场的数据收集。尽管如此,通过数字设备进行数据收集可能由于诸如现场工作者无法负担智能手机和平板电脑、或者他们缺乏培训和能力提升等原因而不可行。在某些情况下,基于纸张的数据收集被认为更为合适,通过OCR(光学字符识别)和OMR(光学标记识别)技术可以自动数字化这些纸张表单。我们提供了一个大规模的手写数字数据集,以及使用这些数据构建的有效于现实世界环境中的深度学习模型和方法。我们在一个使用IVR(互动语音响应)系统为印度北部农村妇女自助小组成员提供健康和营养意识信息的项目中部署了这些工具。大量的妇女使用纸质表格收集电话号码,这些号码通过我们开发的OCR工具进行数字化,并被用以推送接近400万次电话呼叫。数据、模型和代码已公开发布到开源领域。