摘要
身份文档中准确的条形码检测和解码对于安全、医疗和教育等应用至关重要,因为这些应用需要可靠的数据提取和验证。然而,由于缺乏多样化、真实的的数据集,构建强大的检测模型极具挑战性,而这一问题通常与隐私问题和各种各样的文档格式有关。传统的工具,例如 Faker,依赖于预定义的模板,使其在捕捉现实世界身份文档的复杂性方面效率较低。在本文中,我们介绍了一种新的合成数据生成方法,该方法使用大型语言模型 (LLM) 来创建上下文丰富且真实的数据,而无需依赖预定义字段。利用大型语言模型关于不同文档和内容的丰富知识,我们的方法创建的数据能够反映现实身份文档中的多样性。然后,将这些数据编码成条形码,并叠加在驾驶执照、保险卡、学生证等文档的模板上。我们的方法简化了数据集创建过程,无需大量的领域知识或预定义字段。与 Faker 等传统方法相比,大型语言模型生成的数据具有更大的多样性和上下文相关性,从而提高了条形码检测模型的性能。这种可扩展的、隐私优先的解决方案是推动机器学习用于自动化文档处理和身份验证的一大进步。