摘要
arXiv:2505.07672v1 交叉发布类型: cross
摘要: 我们介绍了基于 Python 的 OnPrem.LLM 工具包,用于在离线或受限环境中对敏感的非公开数据应用大型语言模型 (LLMs)。该系统设计用于保护隐私的应用场景,并提供了文档处理和存储、检索增强生成 (RAG)、信息提取、总结、分类以及最少配置的提示/输出处理的预构建流水线。OnPrem.LLM 支持多个 LLM 后端——包括 llama.cpp、Ollama、vLLM 和 Hugging Face Transformers,并支持量化模型、GPU 加速和无缝的后端切换。尽管旨在进行全本地执行,但 OnPrem.LLM 也支持在允许的情况下与广泛的云 LLM 提供商集成,从而实现性能与数据控制之间的平衡部署。无代码 Web 界面增加了非技术人员的可访问性。