LLM2D
Magika:基于人工智能的内容类型检测
Magika: AI-Powered Content-Type Detection
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13768v1

摘要

内容类型检测任务——即识别任意字节序列中编码的数据——对于操作系统、开发、逆向工程环境和各种安全应用至关重要。本文介绍了一种名为Magika的新型AI驱动内容类型检测工具。Magika内部采用了一个深度学习模型,该模型可以在单个CPU上运行,仅需1MB内存来存储模型权重。我们展示了Magika在超过一百种内容类型和超过100万文件的测试集上实现了99%的平均F1分数,优于当前所有现有的内容类型检测工具。为了促进采用和改进,我们在GitHub上以Apache 2许可证开源了Magika,并公开了我们的模型和训练管道。我们的工具已被Gmail邮件服务提供商用于附件扫描,并已集成到VirusTotal中以协助恶意软件分析。我们注意到,本文讨论的是Magika的第一个版本,而更新的版本已经支持超过200种内容类型。感兴趣的读者可以在Magika的GitHub仓库中查看最新的开发进展,仓库地址为https://github.com/google/magika。