摘要
arXiv:2502.09927v1 通告类型: cross
摘要: 我们提出了一种轻量级的大语言模型——Granite Vision,该模型具备视觉能力,特别设计用于企业应用场景,特别是在视觉文档理解方面表现出色。我们的模型在全面的指令遵循数据集上进行了训练,包括文档相关的任务,如从表格、图表、图表、草图和图表中提取内容,以及一般的图像任务。Granite Vision 的架构以视觉模态对齐为中心,使用了一个仅包含解码器的 20 亿参数大语言模型。此外,我们在测试时引入了一种专用的安全分类方法,该方法利用稀疏的注意力向量来识别潜在有害的输入。尽管其架构轻量,但 Granite Vision 在视觉文档理解相关的标准基准测试以及 LiveXiv 基准测试中都取得了很好的成绩。LiveXiv 基准测试通过使用不断更新的最近发表的 Arxiv 论文语料库来避免测试集污染。我们以 Apache-2 开放许可证发布该模型,允许进行研究和商业使用,并提供了完整的训练数据和其他相关信息的可见性。请参见 https://huggingface.co/ibm-granite/ 获取模型权重。