LLM2D
解码复杂性:基于CHPDA的智能模式探索(Context Aware Hybrid Pattern Detection Algorithm)
Decoding Complexity: Intelligent Pattern Exploration with CHPDA (Context Aware Hybrid Pattern Detection Algorithm)
作者: Lokesh Koli, Shubham Kalra, Karanpreet Singh
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07815v1

摘要

arXiv:2502.07815v1 类型: cross 摘要: 检测敏感数据,如个人可识别信息(PII)和受保护的健康信息(PHI),对于数据安全平台至关重要。本研究评估了正则表达式基础的模式匹配算法和精确匹配搜索技术,以优化检测速度、准确性和可扩展性。我们的基准测试结果表明,在正则表达式引擎中,Google RE2在速度(10-15毫秒/MB)、内存效率(8-16MB)和准确率(99.5%)方面提供了最佳平衡,优于PCRE,并且硬件兼容性更广泛,高于Hyperscan。对于精确匹配,Aho-Corasick在大规模数据集上的性能(8毫秒/MB)和可扩展性方面表现出色。性能分析表明,正则表达式处理时间随数据集大小和模式复杂性的线性增加。AI + 正则表达式的混合方法通过提高召回率并最小化假阳性,实现了最高的F1分数(91.6%)。设备基准测试证实,我们的解决方案在高性能和中端系统上都能保持高效的CPU和内存使用。尽管该方法非常有效,但仍存在一些挑战,如有限的多语言支持和需要定期更新模式。未来的工作应该集中于扩展语言覆盖范围,将数据安全和隐私管理(DSPM)与数据泄露预防(DLP)工具集成,并增强监管合规性以促进更广泛的全球采用。