LLM2D

摘要

arXiv:2504.04717v1 类型: cross 摘要：近年来，大型语言模型（LLMs）在处理单轮任务方面的进展已经彻底改变了它们的能力，但在实际应用中，需要复杂的多轮互动。本文综述了最近在评估和提升LLMs的多轮互动方面取得的进展。本文专注于特定任务的场景，从数学和编码领域的指令跟随到角色扮演、医疗保健、教育，甚至对抗性 jailbreak 环境中的复杂对话互动，在系统地探讨在长时间对话中保持上下文、连贯性、公平性和响应性方面的挑战。文章将当前的基准和数据集组织成连贯的类别，反映了多轮对话评估领域的不断演变。此外，我们回顾了在多轮对话环境中的一系列增强方法，包括以模型为中心的策略（上下文学习、监督微调、强化学习和新架构）、外部集成方法（记忆增强、检索方法和知识图谱）以及支持协作互动的代理技术。最后，我们讨论了开放挑战，并提出了未来的研究方向，以进一步提高LLMs中多轮互动的稳健性和有效性。有关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。