LLM2D

摘要

arXiv:2502.09927v1 通告类型: cross 摘要: 我们提出了一种轻量级的大语言模型——Granite Vision，该模型具备视觉能力，特别设计用于企业应用场景，特别是在视觉文档理解方面表现出色。我们的模型在全面的指令遵循数据集上进行了训练，包括文档相关的任务，如从表格、图表、图表、草图和图表中提取内容，以及一般的图像任务。Granite Vision 的架构以视觉模态对齐为中心，使用了一个仅包含解码器的 20 亿参数大语言模型。此外，我们在测试时引入了一种专用的安全分类方法，该方法利用稀疏的注意力向量来识别潜在有害的输入。尽管其架构轻量，但 Granite Vision 在视觉文档理解相关的标准基准测试以及 LiveXiv 基准测试中都取得了很好的成绩。LiveXiv 基准测试通过使用不断更新的最近发表的 Arxiv 论文语料库来避免测试集污染。我们以 Apache-2 开放许可证发布该模型，允许进行研究和商业使用，并提供了完整的训练数据和其他相关信息的可见性。请参见 https://huggingface.co/ibm-granite/ 获取模型权重。