LLM2D

摘要

内容类型检测任务——即识别任意字节序列中编码的数据——对于操作系统、开发、逆向工程环境和各种安全应用至关重要。本文介绍了一种名为Magika的新型AI驱动内容类型检测工具。Magika内部采用了一个深度学习模型，该模型可以在单个CPU上运行，仅需1MB内存来存储模型权重。我们展示了Magika在超过一百种内容类型和超过100万文件的测试集上实现了99%的平均F1分数，优于当前所有现有的内容类型检测工具。为了促进采用和改进，我们在GitHub上以Apache 2许可证开源了Magika，并公开了我们的模型和训练管道。我们的工具已被Gmail邮件服务提供商用于附件扫描，并已集成到VirusTotal中以协助恶意软件分析。我们注意到，本文讨论的是Magika的第一个版本，而更新的版本已经支持超过200种内容类型。感兴趣的读者可以在Magika的GitHub仓库中查看最新的开发进展，仓库地址为https://github.com/google/magika。