LLM2D
Granite Vision:一种轻量级的开源多模态企业智能模型
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence
作者: Granite Vision Team, Leonid Karlinsky, Assaf Arbelle, Abraham Daniels, Ahmed Nassar, Amit Alfassi, Bo Wu, Eli Schwartz, Dhiraj Joshi, Jovana Kondic, Nimrod Shabtay, Pengyuan Li, Roei Herzig, Shafiq Abedin, Shaked Perek, Sivan Harary, Udi Barzelay, Adi Raz Goldfarb, Aude Oliva, Ben Wieles, Bishwaranjan Bhattacharjee, Brandon Huang, Christoph Auer, Dan Gutfreund, David Beymer, David Wood, Hilde Kuehne, Jacob Hansen, Joseph Shtok, Ken Wong, Luis Angel Bathen, Mayank Mishra, Maksym Lysak, Michele Dolfi, Mikhail Yurochkin, Nikolaos Livathinos, Nimrod Harel, Ophir Azulai, Oshri Naparstek, Rafael Teixeira de Lima, Rameswar Panda, Sivan Doveh, Shubham Gupta, Subhro Das, Syed Zawad, Yusik Kim, Zexue He, Alexander Brooks, Gabe Goodhart, Anita Govindjee, Derek Leist, Ibrahim Ibrahim, Aya Soffer, David Cox, Kate Soule, Luis Lastras, Nirmit Desai, Shila Ofek-koifman, Sriram Raghavan, Tanveer Syeda-Mahmood, Peter Staar, Tal Drory, Rogerio Feris
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09927v1

摘要

arXiv:2502.09927v1 通告类型: cross 摘要: 我们提出了一种轻量级的大语言模型——Granite Vision,该模型具备视觉能力,特别设计用于企业应用场景,特别是在视觉文档理解方面表现出色。我们的模型在全面的指令遵循数据集上进行了训练,包括文档相关的任务,如从表格、图表、图表、草图和图表中提取内容,以及一般的图像任务。Granite Vision 的架构以视觉模态对齐为中心,使用了一个仅包含解码器的 20 亿参数大语言模型。此外,我们在测试时引入了一种专用的安全分类方法,该方法利用稀疏的注意力向量来识别潜在有害的输入。尽管其架构轻量,但 Granite Vision 在视觉文档理解相关的标准基准测试以及 LiveXiv 基准测试中都取得了很好的成绩。LiveXiv 基准测试通过使用不断更新的最近发表的 Arxiv 论文语料库来避免测试集污染。我们以 Apache-2 开放许可证发布该模型,允许进行研究和商业使用,并提供了完整的训练数据和其他相关信息的可见性。请参见 https://huggingface.co/ibm-granite/ 获取模型权重。