LLM2D

摘要

arXiv:2505.07672v1 交叉发布类型: cross 摘要: 我们介绍了基于 Python 的 OnPrem.LLM 工具包，用于在离线或受限环境中对敏感的非公开数据应用大型语言模型 (LLMs)。该系统设计用于保护隐私的应用场景，并提供了文档处理和存储、检索增强生成 (RAG)、信息提取、总结、分类以及最少配置的提示/输出处理的预构建流水线。OnPrem.LLM 支持多个 LLM 后端——包括 llama.cpp、Ollama、vLLM 和 Hugging Face Transformers，并支持量化模型、GPU 加速和无缝的后端切换。尽管旨在进行全本地执行，但 OnPrem.LLM 也支持在允许的情况下与广泛的云 LLM 提供商集成，从而实现性能与数据控制之间的平衡部署。无代码 Web 界面增加了非技术人员的可访问性。