LLM2D

摘要

arXiv:2503.19786v1 Announce Type: cross 摘要：我们介绍了Gemma 3，这是一个轻量级开源模型家族的多模态扩展，参数规模从10亿到270亿不等。这一版本引入了视觉理解能力，覆盖更多语言，并支持更长的上下文——至少128K个令牌。我们还更改了模型的架构，以减少随着上下文变长而膨胀的KV缓存内存。这通过增加局部注意力层与全局注意力层的比例并保持局部注意力跨度简短来实现。Gemma 3模型采用蒸馏训练，并在预训练和指令微调版本中均表现出色。特别是，我们全新的后训练配方显著提高了数学、聊天、指令跟随和多语言能力，使得Gemma3-4B-IT与Gemma2-27B-IT相当，并使Gemma3-27B-IT在基准测试中与Gemini-1.5-Pro相当。我们将所有模型发布给社区。