摘要
arXiv:2504.13217v2 宣布类型: replace-cross
摘要:大规模语言模型(LLMs)在组织工作流程中的应用越来越广泛。这引发了对其能源消耗、财务成本和数据主权的担忧。尽管性能基准测试经常庆祝前沿模型,但实际部署决策需要更广泛的视角:在什么情况下一个较小的、本地可部署的模型“足够好”?本文通过评估包括文本总结、生成日程、起草邮件和提案在内的十个日常职业任务中的十一款专有和开源的语言模型,提供了实证答案。使用基于双LLM的评估框架,我们自动化了任务执行,并在与输出质量、事实准确性以及伦理责任相关的十个标准下实现了标准化评估。结果表明,GPT-4o 一贯表现出色,但代价显著更高且环境足迹更大。值得注意的是,较小的模型如Gemma-3和Phi-4在大多数任务中取得了强劲且可靠的成果,这表明其在需要成本效益、本地部署或隐私保护的背景下具有可行性。聚类分析揭示了三种模型组——顶级全才、能干的一般者和有限但安全的表现者,突显了质量、控制和可持续性之间的权衡。此外,任务类型影响模型效果:概念性任务对大多数模型构成了挑战,而聚合和转换任务则表现更好。我们主张从追求性能最大化基准转向关注任务和情境适应性的充分性评估,这更能反映组织的优先级。我们的方法提供了一种基于可持续性视角评估人工智能模型的可扩展方法,并为负责任的语言模型部署提供可操作的指导。