LLM2D

摘要

arXiv:2502.07815v1 类型: cross 摘要: 检测敏感数据，如个人可识别信息（PII）和受保护的健康信息（PHI），对于数据安全平台至关重要。本研究评估了正则表达式基础的模式匹配算法和精确匹配搜索技术，以优化检测速度、准确性和可扩展性。我们的基准测试结果表明，在正则表达式引擎中，Google RE2在速度（10-15毫秒/MB）、内存效率（8-16MB）和准确率（99.5%）方面提供了最佳平衡，优于PCRE，并且硬件兼容性更广泛，高于Hyperscan。对于精确匹配，Aho-Corasick在大规模数据集上的性能（8毫秒/MB）和可扩展性方面表现出色。性能分析表明，正则表达式处理时间随数据集大小和模式复杂性的线性增加。AI + 正则表达式的混合方法通过提高召回率并最小化假阳性，实现了最高的F1分数（91.6%）。设备基准测试证实，我们的解决方案在高性能和中端系统上都能保持高效的CPU和内存使用。尽管该方法非常有效，但仍存在一些挑战，如有限的多语言支持和需要定期更新模式。未来的工作应该集中于扩展语言覆盖范围，将数据安全和隐私管理（DSPM）与数据泄露预防（DLP）工具集成，并增强监管合规性以促进更广泛的全球采用。