摘要
随着大型语言模型(LLM)的快速发展,多LLM任务的多样性和其定价结构的可变性变得越来越重要,因为不同LLM之间的成本差异可能很大。为了应对这些挑战,我们引入了*C2MAB-V*,一种**具有多种奖励模型的** **成本效益** **组合** **多臂** **老虎机**,用于优化LLM选择和使用。该在线模型不同于传统的静态方法或那些不考虑成本的单一LLM方法。通过在调度云上部署多个LLM,以及一个专门用于处理用户查询的本地服务器,*C2MAB-V* 促进了在组合搜索空间中选择多个LLM,专门针对具有不同奖励模型的各种协作任务类型。基于我们设计的在线反馈机制和置信界限技术,*C2MAB-V* 可以通过管理不同模型之间的探索-利用权衡来有效地解决多LLM选择挑战,同时平衡不同任务的成本和奖励。通过以下方法解决了选择多个LLM的NP-hard整数线性规划问题,该问题存在权衡困境:i)由本地服务器将整数问题分解为松弛形式;ii)利用离散化舍入方案,由调度云提供最佳的LLM组合;iii)基于反馈进行持续在线更新。从理论上讲,我们证明*C2MAB-V* 在多种奖励模型上提供了严格的保证,在某些退化情况下与最先进的结果相匹配。在经验上,我们证明*C2MAB-V* 在三种应用场景中,使用九个LLM有效地平衡了性能和成本效益。