LLM2D

摘要

本文介绍了Llama Guard 3-1B-INT4，这是一个紧凑高效的Llama Guard模型，已在2024年Meta Connect期间开源。我们证明了Llama Guard 3-1B-INT4可以部署在资源受限的设备上，在普通Android手机CPU上实现至少每秒30个token的吞吐量和2.5秒或更短的首个token响应时间。值得注意的是，我们的实验表明，尽管Llama Guard 3-1B-INT4的大小约小7倍（440MB），但其安全审核得分与更大的对应模型Llama Guard 3-1B相当甚至更好。