LLM2D

摘要

arXiv:2504.04717v4 宣告类型：替换交叉摘要：大型语言模型（LLMs）最近的进步已经彻底改变了它们处理单轮任务的能力，但在现实世界的应用中，需要复杂的多轮交互。本文综述了近期在评估和增强LLMs中多轮交互方面的进展。我们集中在特定任务场景上，从数学和编程等各个领域的指令遵循到角色扮演、医疗保健、教育，甚至是敌对的监狱逃脱设置中的复杂对话互动。系统地探讨了在长时间对话中保持上下文一致性、连贯性、公正性和响应性等方面的挑战。本文将当前的基准和数据集整理成反映多轮对话评估不断发展景观的综合性类别。此外，我们回顾了在多轮设置下的一系列改进方法，包括模型为中心的策略（上下文学习、监督微调、强化学习和新型架构），外部集成方法（增强记忆、检索方法和知识图谱），以及基于代理的协作交互技术。最后，我们讨论了开放性挑战，并提出了未来研究方向，以进一步提高LLMs中多轮交互的稳定性和有效性。相关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。