LLM2D
Llama Guard 3-1B-INT4:紧凑高效的人工智能对话安全防护
Llama Guard 3-1B-INT4: Compact and Efficient Safeguard for Human-AI Conversations
作者: Igor Fedorov, Kate Plawiak, Lemeng Wu, Tarek Elgamal, Naveen Suda, Eric Smith, Hongyuan Zhan, Jianfeng Chi, Yuriy Hulovatyy, Kimish Patel, Zechun Liu, Changsheng Zhao, Yangyang Shi, Tijmen Blankevoort, Mahesh Pasupuleti, Bilge Soran, Zacharie Delpierre Coudert, Rachad Alao, Raghuraman Krishnamoorthi, Vikas Chandra
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.17713v1

摘要

本文介绍了Llama Guard 3-1B-INT4,这是一个紧凑高效的Llama Guard模型,已在2024年Meta Connect期间开源。我们证明了Llama Guard 3-1B-INT4可以部署在资源受限的设备上,在普通Android手机CPU上实现至少每秒30个token的吞吐量和2.5秒或更短的首个token响应时间。值得注意的是,我们的实验表明,尽管Llama Guard 3-1B-INT4的大小约小7倍(440MB),但其安全审核得分与更大的对应模型Llama Guard 3-1B相当甚至更好。