摘要
arXiv:2504.15188v1 宣告类型: 新
摘要:当前的大语言模型在通用推理方面表现出色,但在需要专有或特定领域知识的专业任务上却表现不佳。对于每一个特定应用,精细调整大型模型常常由于黑盒约束和高计算开销而不可行。为了解决这个问题,我们提出了一种协作框架,将一个专门的小模型与一个通用的大模型配对。这个小模型针对特定领域进行定制,生成初稿和背景信息,而大模型则利用其先进的推理能力来完善这些初稿,使大语言模型的能力能够扩展到关键且专门的任务。为了优化这种协作,我们引入了一种协作反馈来精细调整小模型,该反馈量化了小模型在协作过程中的贡献影响力,并建立了偏好对来指导小模型的偏好调整。我们通过三个领域的实验验证了该框架的有效性。我们发现,通过利用互补优势进行协作,该框架的表现显著优于各个模型单独工作。此外,将小模型与协作偏好对齐进一步提升了整体性能。