摘要
arXiv:2504.04717v1 类型: cross
摘要:近年来,大型语言模型(LLMs)在处理单轮任务方面的进展已经彻底改变了它们的能力,但在实际应用中,需要复杂的多轮互动。本文综述了最近在评估和提升LLMs的多轮互动方面取得的进展。本文专注于特定任务的场景,从数学和编码领域的指令跟随到角色扮演、医疗保健、教育,甚至对抗性 jailbreak 环境中的复杂对话互动,在系统地探讨在长时间对话中保持上下文、连贯性、公平性和响应性方面的挑战。文章将当前的基准和数据集组织成连贯的类别,反映了多轮对话评估领域的不断演变。此外,我们回顾了在多轮对话环境中的一系列增强方法,包括以模型为中心的策略(上下文学习、监督微调、强化学习和新架构)、外部集成方法(记忆增强、检索方法和知识图谱)以及支持协作互动的代理技术。最后,我们讨论了开放挑战,并提出了未来的研究方向,以进一步提高LLMs中多轮互动的稳健性和有效性。有关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。