LLM2D

摘要

将大型语言模型（LLM）用于改进学生模型（例如，知识蒸馏）是一种已被广泛研究的方法。然而，对于人类而言，教学不仅能改进学生，也能改进教师，因为它能促进更严格、更清晰的推理以及知识构建。我们提出一个问题：大型语言模型能否通过教学（LbT）来改进其推理能力？如果答案是肯定的，我们就可以潜在地解锁持续改进模型的可能性，而无需仅仅依赖于人工生成的数据或更强大的模型。本文对这个问题进行了初步探索。我们展示了如何将LbT的思想融入现有的LLM训练/提示流程中并取得改进。具体来说，我们设计了三种方法，每种方法都模拟LbT的三个层次之一：观察学生的反馈、从反馈中学习以及迭代学习，其目标是在不进行训练的情况下提高答案准确性，或通过微调来提高模型的内在能力。我们发现：（1）使用上下文学习作为学生的“学习”方法时，更容易让学生学习的教学材料具有更清晰、更准确的逻辑；（2）弱到强的泛化：LbT可能通过教授弱模型来帮助改进强模型；（3）学生的多样性可能会有所帮助：教授多个学生可能比教授一个学生或教师本身更好。我们希望我们的探索能够激发未来关于LbT的研究，并更广泛地将教育中的先进技术应用于改进LLM。代码和网站地址分别为https://github.com/imagination-research/lbt和https://sites.google.com/view/llm-learning-by-teaching。