摘要
本文介绍了Llama Guard 3-1B-INT4,这是一个紧凑高效的Llama Guard模型,已在2024年Meta Connect期间开源。我们证明了Llama Guard 3-1B-INT4可以部署在资源受限的设备上,在普通Android手机CPU上实现至少每秒30个token的吞吐量和2.5秒或更短的首个token响应时间。值得注意的是,我们的实验表明,尽管Llama Guard 3-1B-INT4的大小约小7倍(440MB),但其安全审核得分与更大的对应模型Llama Guard 3-1B相当甚至更好。