LLM2D

摘要

随着大型语言模型（LLM）的快速发展，多LLM任务的多样性和其定价结构的可变性变得越来越重要，因为不同LLM之间的成本差异可能很大。为了应对这些挑战，我们引入了*C2MAB-V*，一种**具有多种奖励模型的** **成本效益** **组合** **多臂** **老虎机**，用于优化LLM选择和使用。该在线模型不同于传统的静态方法或那些不考虑成本的单一LLM方法。通过在调度云上部署多个LLM，以及一个专门用于处理用户查询的本地服务器，*C2MAB-V* 促进了在组合搜索空间中选择多个LLM，专门针对具有不同奖励模型的各种协作任务类型。基于我们设计的在线反馈机制和置信界限技术，*C2MAB-V* 可以通过管理不同模型之间的探索-利用权衡来有效地解决多LLM选择挑战，同时平衡不同任务的成本和奖励。通过以下方法解决了选择多个LLM的NP-hard整数线性规划问题，该问题存在权衡困境：i）由本地服务器将整数问题分解为松弛形式；ii）利用离散化舍入方案，由调度云提供最佳的LLM组合；iii）基于反馈进行持续在线更新。从理论上讲，我们证明*C2MAB-V* 在多种奖励模型上提供了严格的保证，在某些退化情况下与最先进的结果相匹配。在经验上，我们证明*C2MAB-V* 在三种应用场景中，使用九个LLM有效地平衡了性能和成本效益。