LLM2D

摘要

arXiv:2504.15188v1 宣告类型: 新摘要：当前的大语言模型在通用推理方面表现出色，但在需要专有或特定领域知识的专业任务上却表现不佳。对于每一个特定应用，精细调整大型模型常常由于黑盒约束和高计算开销而不可行。为了解决这个问题，我们提出了一种协作框架，将一个专门的小模型与一个通用的大模型配对。这个小模型针对特定领域进行定制，生成初稿和背景信息，而大模型则利用其先进的推理能力来完善这些初稿，使大语言模型的能力能够扩展到关键且专门的任务。为了优化这种协作，我们引入了一种协作反馈来精细调整小模型，该反馈量化了小模型在协作过程中的贡献影响力，并建立了偏好对来指导小模型的偏好调整。我们通过三个领域的实验验证了该框架的有效性。我们发现，通过利用互补优势进行协作，该框架的表现显著优于各个模型单独工作。此外，将小模型与协作偏好对齐进一步提升了整体性能。